当前位置:首页 >> 信息与通信 >>

大规模词表连续语音识别引擎紧致动态网络的构建


自然科学版 ) I S S N 1 0 0 0 0 0 5 4 清华大学学报 ( 2 0 1 2年 第5 2卷 第1 1期   -   / ,2 1 1 2 2 2 3 N J T s i n h u a U n i v( S c i &T e c h) 0 1 2,V o l . 5 2, N o . 1 1 C N   -       g

/ 4 2 5

1 5 3 4 1 5 3 0 -

大规模词表连续语音识别引擎紧致动态网络的构建
刘 加,  陈 谐,   单煜翔 ,   史永哲
( ) 清华大学 电子工程系 ,清华信息科学与技术国家实验室 ,北京 1 0 0 0 8 4

摘   要 :大规模词 表 连 续 语 音 识 别 系 统 需 要 综 合 各 种 知 识 如声学模型 、 语言 模 型 、 发 音 词 典 等。其 中, 解码网络是 源, 识别引擎的 基 础 , 对提高解码器的性能有着至关重要的影 构 建 一 个 紧 致 的 解 码 网 络, 可以 响 。 有效综合这些知 识 源 , 有效减少识 别 时 的 搜 索 空 间 和 重 复 计 算 , 显著提高解码速 度 。 该文针对语音识别的动态解码网络进行研究 , 提出了词 ,WE) 节 点 前 推 算 法, 结合传统的前后向合 标志 ( w o r d e n d   实现了一个基于隐 M 并算法 , a r k o v模 型 状 态 为 网 络 节 点 的 紧凑动态解码网络 。 优 化 后 的 解 码 网 络 的 节 点 数 和 边 数 分 / 别是线性词 典 解 码 网 络 的 1 4,是 开 源 工 具 包 HD e c o d e的 / 1 2;需要计算 语 言 模 型 预 测 分 数 的 节 点 数 为 HD e c o d e的 / 可方便地移植到其他语 1 2。 该声学模型基于 三 音 子 建 模 , 种上 。 关键词 :语音识别 ;解码网络 ;声学模型 ;语言模型预测 中图分类号 : TN 9 1 2. 3 4   ( ) 文章编号 : 1 0 0 0 0 0 5 4 2 0 1 2 1 1 1 5 3 0 0 5 - - - 文献标志码 :A

a c o u s t i c m o d e l i s b a s e d o n t h r e e h o n e m e s s o d e c o d e r n e t w o r k s c a n                     p e a s i l b e b u i l t f o r o t h e r l a n u a e s .         y g g   : ;d ;a ; K e w o r d s s e e c h r e c o n i t i o n e c o d e r n e t w o r k c o u s t i c m o d e l       p g y   l a n u a e m o d e l l o o k a h e a d     - g g

语音 识 别 是 对 未 知 的 语 音 信 号 进 行 识 别 , 转换
] 1 2 - 。 在信号层上 , 为文字 ( 串) 输出的技术 [ 利用语 音

信号的短时平稳特性 , 将语音分帧并提取频谱特征 , 使用统计模型进 行 建 模 , 通 常 称 为 声 学 模 型。 声 学 模型 通 常 采 用 隐 M a r k o v模型( h i d d e n M a r k o v   ,HMM) 建 模。 在 语 言 层 上, 根据字词之间 m o d e l 的上下文连接 , 利用 历 史 语 句 预 测 当 前 词 出 现 的 概 率, 这种模型称 之 为 语 言 模 型 。 语 言 模 型 通 常 采 用 文 法 模 型。发 音 词 典 定 义 了 词 和 其 N 元( N- r a m) g 发音音素串的映 射 。 解 码 器 则 综 合 声 学 模 型 、 语言 模型和发音词典的信息 , 构建一个高效的解码网络 。 在解码时 , 搜索算法在网络中进行搜索识别 , 寻找最 作为识别结果输出 。 优路径 , 随着语音查询系统 、 语音输入法 、 呼叫中心等应 用的出现 , 为了提高用户体验 , 人们对语音识别系统 各个指标提出较高 的 要 求 , 如何提高语音识别系统 的实时率成为一 个 被 普 遍 关 注 的 问 题 。 其 中 , 解码 网络作为识别引擎 的 基 础 , 直接关系着解码速度和 响应时延 。 因此 , 解码网络的优化对于语音识别任 务显得尤为重要 。 当前主流的语音识别系统按照解码网络主要可

C o n s t r u c t i o n o f a c o m a c t d n a m i c d e c o d e r           p y f o r l a r e v o c a b u l a r c o n t i n u o u s n e t w o r k       g y   s e e c h r e c o n i t i o n   g p
, , , L I U J i a C H E N X i e S H A N Y u x i a n S H I Y o n z h e         g g ( T s i n h u a N a t i o n a l L a b o r a t o r f o r I n f o r m a t i o n S c i e n c e         g y   , , a n d T e c h n o l o D e a r t m e n t o f E l e c t r o n i c E n i n e e r i n         g y p g g , ) T s i n h u a U n i v e r s i t B e i i n 1 0 0 0 8 4, C h i n a   g y j g   :L A b s t r a c t a r e v o c a b u l a r c o n t i n u o u s s e e c h r e c o n i t i o n s s t e m s         g y p g y   ( , L V C S R) i n v o l v e v a r i o u s k n o w l e d e s o u r c e s s u c h a s a n a c o u s t i c             g ,a m o d e l l a n u a e m o d e l a n d a r o n u n c i a t i o n d i c t i o n a r .T h e             g g p y d e c o d e r n e t w o r k a s t h e b a s i s o f t h e d e c o d e r h a s a c r i t i c a l i n f l u e n c e o n                         t h e d e c o d e r e r f o r m a n c e . B e f f e c t i v e l i n t e r a t i n t h e s e k n o w l e d e       p y y g g g       , s o u r c e s a c o m a c t d e c o d e r n e t w o r k c a n r e d u c e t h e s e a r c h s a c e a n d                   p p ,w a v o i d r e e a t e d c o m u t a t i o n s h i c h a c c e l e r a t e s t h e r e c o n i t i o n           p p g s e e d .T h i s a e r d e s c r i b e s a c o m a c t d n a m i c d e c o d e r n e t w o r k               p p p p y ,w b a s e d o n h i d d e n M a r k o v m o d e l s t a t e s a s t h e n e t w o r k n o d e i t h a n                     e f f i c i e n t w o r d e n d u s h i n a l o r i t h m f o r s e e c h r e c o n i t i o n.T h e             p g g p g   a l o r i t h m c o m b i n e s t r a d i t i o n a l f o r w a r d a n d b a c k w a r d c o m b i n a t i o n             g a l o r i t h m s t o r e d u c e t h e n u m b e r o f n o d e s a n d e d e s b a f a c t o r o f 4                         g y g   c o m a r e d t o a l i n e a r l e x i c a l d e c o d e r n e t w o r k a n d w i t h h a l f a s m a n                       p y n o d e s a s t h e w e l l k n o w n o e n s o u r c e t o o l HD e c o d e . T h e n u m b e r o f       -             p n o d e s n e e d e d t o c a l c u l a t e t h e l o o k a h e a d s c o r e i s c u t i n h a l f .T h i s           -          

收稿日期 : 2 0 1 2 0 2 2 8 - - 基金项目 :国家自然科学基金委员会与香港研究资助局联合科研 ) ; 基金资助项目 ( 6 0 9 3 1 1 6 0 4 4 3 ) ; 国家自然科学基金项目 ( 9 0 9 2 0 3 0 2, 6 1 0 0 5 0 1 9 ) ; 国家 “ 八六三 ”高技术项目 ( 2 0 0 8 AA 0 4 0 2 0 1 ) 国家科技支撑计划资助项目 ( 2 0 0 9 B AH 4 1 B 0 1 ,男 ( ,福建 ,教授 。 作者简介 :刘加 ( 汉) 1 9 5 4—) : E-m a i l l i u a i l . t s i n h u a . e d u. c n @m j g

刘   加 ,等 :  大规模词表连续语音识别引擎紧致动态网络的构建

1 5 3 1  

分为两大类 :动态解码器 和 静 态 解 码 器 。 它们之间 的主要区别在于是将语言模型的信息静态地编译到 解码网络中 , 还是在解码过程中按需加入 。 根据目前 文献报道
[ ] 3 4 -

学模型存在模型共 享 , 解码网络中存在多条重复路 径和优化的空间 , 因此需要对解码网络进行优化 , 如 节点合并 、 节点前推等操作 。 同时 , 如需要考虑上下 文关系时 , 解码网络 的 构 建 还 需 考 虑 词 头 扇 入 区 和 以及语音中可能出现的停顿和 词尾扇出区的连接 , 静音 。 通常通过加入静音模型 ( 如S 对词 末 I L, S P) 或句末的静音区 间 进 行 建 模 。 同 时 , 由于发音词典 可 中普遍存在一个词 对 应 多 个 发 音 和 同 音 字 现 象 , 压缩网络 以通过在构建解码 网 络 时 进 行 等 效 合 并 , 规模 。 图 1 给出了一个示例词 典 。 图 2 是 根 据 图 1 给出的词典建立的线性词典解码网络 。

, 静态解码器仅略快于动态解码器 , 但由
[ ] 5

于静态解码器需要预先将语言模型编译到解码网络 , 占用大量的内存空间 要求 。 动态解码器 , 这对应用场景提出了较高的
[ ] 6

由于其占用内存小 、 速度较快的

广泛应用于实时语音识别系统 。 本文主要对动 特点 , 态解码器解码网络进行研究 。 下文中出现的解码网 络, 如不加特殊说明 , 均表示动态解码器解码网络 。

1  解码网络概述
1. 1  解码网络结构 解码网络是解码器的基础部分, 解码网络定义 了语音识别中的 可 行 路 径 , 是 一 个 有 向 循 环 图。 线 性词典解码网络根据发音词典中词的发音序列和对 建立一个并行的解码网络 。 由于声 应的声学模型 ,

图 1  解码网络示例词典

图 2  解码网络示例

采用汉语拼音的三音子模型作    为了清晰起见 , 为建模单元 。 词头 区 表 示 词 的 发 音 开 始 部 分 , 词尾 后面跟随 S 表示词的发音 结 束 部 分 , I L或S P模型 用于 吸 收 可 能 的 静 音 。 每 个 HMM 模 型 包 含 3 个 状态 。 图 2 中省略了词头词尾的对应连接 。 1. 2  语言模型预测 在解码 过 程 中 , 常用的搜索算法为令牌传递 ( ) 算 法。 令 牌 传 递 算 法 是 V t o k e n i t e r b i搜 a s s i n   p g 索的一种实现 算 法 。 令 牌 对 应 于 解 码 网 络 的 节 点 , 包含解码到此刻的似然分数 、 语言模型分数 、 历史路 径等信息 。 随着语 音 帧 的 输 入 , 令牌沿着解码网络 方向向前传递 。 因 此 , 可方便地在令牌中加入各种 如模型边界 、 词边界等 。 当解码完所有语音帧 信息 , 后, 令牌带 有 的 路 径 信 息 可 用 于 回 溯 , 得到最优路

7] 。 此外 , 带有路 径 信 息 的 令 牌 需 要 传 递 到 词 标 径[

,WE) 志( 节点才能确定词的标识 , 同时加 w o r d e n d   [ ] 入语言模型分数 8 。 语言模型分数在识别过程中是 一个有效的约束和导向 。 匹配的语言模型分数不仅 可以引导解码过程 得 到 正 确 的 识 别 结 果 , 而且有利 于剪枝 , 减少搜索空间 。 因此 , 为了尽早加入语言模 型分数 , 更为有效地剪枝和搜索 , 学者引入了语言模
9] 。 语言模型预测的数学表达式如式 型预测的方法 [

( ) 所示 。 在某个 状 态 节 点 n,给 定 历 史 路 径 ( 即历 1 史语言模型 ) h,该状态所有可达的 WE 节点集合为 , 为 语 言 模 型 历 史 为 h、当 前 词 为 w W( n) P( w h) | 的语言模型分数 。 取所有可达词中最大的语言模型 用于束宽剪枝( 分数作为语 言 模 型 预 测 分 数 , b e a m ) 。 令牌在解码网 络 的 传 递 过 程 中 , 如果节点 s e a r c h

1 5 3 2  

清 华 大 学 学 报 ( 自 然 科 学 版)

( ) 2 0 1 2, 5 2 1 1

所能到达的 WE 节 点 集 合 W ( 发 生 变 化, 则需要 n) 重新计算语言模型预测分数 。 数学表达为

)添加起始和结束节点 , 删除冗余的连接节点 。 6 其中 , 后向合并可以极大地压缩网络节点数 , 减 小网络规模 。 WE 节点的前推有助于后续的前向 合 并操作 , 且对于减少 需 要 计 算 语 言 模 型 预 测 分 数 的 节点有重要作用 。 本文根据语音识别解码网络自身
1 0] , 的特点 , 基于 传 统 的 WE 节 点 前 推 算 法 [ 提出了 一种更为 彻 底 的 WE 节 点 前 推 算 法 。 在 解 码 网 络

n| h)= m a xP( w| h) . π( ()
w∈W n

( ) 1

1. 3  节点合并算法 本文使用的声学模型以三音子为基本建模单 元 。 考虑到声学模型训练的时候根据上下文进行了 因 此 在 建 立 的 原 始 网 络 中, 存在很多冗 状态共享 , 余, 可以通过等 效 合 并 压 缩 网 络 规 模 。 合 并 的 方 式
1 0] 。 主要有两种 :前向合并和后向合并 [

有如下 3 种 WE 节点可以前推的情形 : 中, 情形 1  WE 节 点 前 只 有 一 个 前 驱 节 点 , 即该 前驱节点没有多个后继节点 。 情形 2  WE 节 点 前 有 多 个 前 驱 节 点 , 存在一 个或多个前驱节点只有一个后继节点 。 情形 3  同 音 字 或 前 续 声 学 物 理 模 型 全 部 绑 定, 只是 WE 节点不同 。 其中 :情形 1 是常见的可以进行 WE 节点前 推 仍然保 持 网 络 的 等 效 性 ;情 形 2 由 于 连 接 的情形 , 可通 过 复 制 多 个 相 同 的 WE 节 点 副 多个前驱节点 , 本继续 前 推 ;情 形 3 下 , 本 文 通 过 将 多 个 WE 节 点 合 并为 1 个复杂 WE 节点后按照情形 1 和情形 2 进 行前推 。 综上所述 , 本文使用的 WE 前推算法为 : )将所有满足情形 3 的 WE 节点进行合并为复 1 插入队列 , 并将其他 WE 节点插入队列 。 杂 WE 节点 , )对该队列 , 弹出队头 WE 节点 , 2 )如果 WE 节点满足情形 1,则在其前驱节点 a

前向合并 :当两个 节 点 有 相 同 的 状 态 节 点 I D, 且有相同的前驱节点 , 这两个节点可以等效合并 , 如 图 3 中阴影部分所示的节点 3 和节点 4。

图 3  前向合并示例

后向合并 :当两个 节 点 有 相 同 的 状 态 节 点 I D, 且有相同的后继节点 , 这两个节点可以等效合并 , 如 图 4 中阴影部分所示的节点 1 和节点 2。

图 4  后向合并示例

2  紧致解码网络构建算法
解码网络由节点和边构成 。 网络中的节点可分 为表征连接的虚节点和对应实际声学模型的物理节 点 。 表征连接的节点一方面便于表征前后的连接关 系, 如词标识的 节 点 ;另 一 方 面 虚 节 点 可 以 汇 聚 节 点, 减少总边数 。 常见 的 物 理 节 点 单 元 有 HMM 模 型和 HMM 状态 。 为了 让 解 码 网 络 更 为 紧 凑 , 本文 使用 HMM 状 态 作 为 网 络 节 点 单 元 。 解 码 网 络 的 构建算法如下 : )根据发音词典的发音 , 分别建立词头区和词 1 连接对应的词头 尾区 。 根 据 上 下 文 的 连 接 关 系 , 词尾
[ 1 1]

将此 WE 节点压入队列 ; 前插入该 WE 节点 , ) b 如果 WE 节点满足情形 2,则在其每个只有 一个后继节点的前驱节点前插入该具有相同词标识 的 WE 节点 , 并将该新建的 WE 节点压入队列 ; )停止前推 。 c )将所有复 杂 WE 节 点 按 原 先 存 有 的 映 射 展 3 开为简单 WE 节点 。 由于在 WE 节点 前 推 的 过 程 中 , 需 要 复 制 WE 节点 , 不再保证网络 节 点 能 到 达 的 词 标 识 编 号 范 围
1 2] , 为连续区 间 [ 可使用文[ 中描述的算法得 1 3 1 4] -

利用语言模型的稀疏性以及由 到语言模型预测表 , 低阶预测分数得到 的 高 阶 预 测 分 数 , 可实现更为有 效的 语 言 模 型 预 测 生 成 和 存 取 算 法 。 图 5—7 为 图 2 所示的解码网络优化示例 。 图 5 所 示 为 线 性 词 典 解码网络 ;图 6 为根 据 HD e c o d e得 到 的 解 码 网 络 ; 图 7 为使用本文提出的解码网络算法得到的解码网 络 。 图 6 和 7 中阴影所示节点表示需要计算语言模 型预测分数的节 点 。 可 以 看 到 , 采用本文算法得到 的解码网络 , 不仅在结构上更为紧凑 , 在网络中需要 的语言模型预测节点相比 HD e c o d e也有减少 。



)逐个插入发音词典中的词中节点 , 在词结束 2 ,WE) 时加入词标识 ( 节点表征词的结束 , w o r d e n d   同时连接到相应的词尾区 。 )遍历所有节点 , 后向合并满足条件的节点 。 3 )前推 WE 节点 。 4 )遍历所有节点 , 前向合并满足条件的节点 。 5

刘   加 ,等 :  大规模词表连续语音识别引擎紧致动态网络的构建

1 5 3 3  

3  实验设置及结果
3. 1  数据库 本文分别对中文和英文语音识别系统构建识别 解码网络 , 并进 行 对 比 。 中 文 使 用 的 发 音 词 典 包 含 其中有 6 6 8 0 0 0 个发音 , 3 0 0 0 个 不 同 的 词。 声 学 模     型 HMM 状态采用混合 G 共有4 a u s s模型建模 , 0 0 0   多个不同 的 HMM 状 态 。 英 文 系 统 使 用 的 发 音 词 典包含 1 其中有1 3 0 0 0 0 个 发 音, 2 0 0 0 0个不同的     词, 声学模型包含 6 0 0 0 多个不同的 HMM 状态 。  

3. 2  实验结果 3. 2. 1  解码网络实验部分 网络压缩的比例与许多因素相关 , 如词表大小 、 语种 、HMM 模 型 决 策 树 规 则 以 及 HMM 状 态 数 等 。 表 1 和 2 分别 就 中 、 英文系统给出了线性词典 解码网络 、HD e c o d e 构建的解码网络和本文算法构 建的解码网络的节点数与边数 。 通过表 1 和 2 中数 据对比可以发现 , 按照本文算法构建的解码网络节 / 点数和边数为原始解码网络的 1 4,为 HD e c o d e网

1 5 3 4  

清 华 大 学 学 报 ( 自 然 科 学 版)

( ) 2 0 1 2, 5 2 1 1

/ 络的 1 由于进行了有效的 WE 节点前推 , 2。 同时 , 本文算法构建的解码网络需要语言模型预测的节点 / 数为 HD e c o d e 的1 2,有效减少了解码过程中计算 语言模型预测分数的时间 。 从表 1 的前两行可以看 / 到 ,H D e c o d e相 比 原 始 网 络 有 了 接 近 1 2 的 压 缩, H D e c o d e 的网络是基于 HMM 模型为网络节点的后 向合并 。 本文算法基于状态节点构建的紧致网络进 行有 效 的 WE 节 点 前 推 , 使随后的前向合并更为 彻底 。
表 1  中文解码网络大小对比 网络类型 原始网络 HD e c o d e   本文算法 压缩比例 ( 本文 算 ) 法相比 HD e c o d e 状态节点数 边数 预测节点数 1 1 4 1 7 6   7 3 2 8 8   3 9 5 8 0   1. 8 5

4  结   论
本文提出 了 一 种 更 为 彻 底 的 WE 节 点 前 推 算 法, 结合传统的前后向合并算法 , 使用 隐 M a r k o v模 型状态节点 , 实现了一个紧凑的语音识别解码网络 。 实验结果表明 :优化后的解码网络的节点数和边数 / 分别是 线 性 词 典 解 码 网 络 的 1 4,是 开 源 工 具 包 / HD e c o d e 的1 2;需要计算语言模型预 测 分 数 的 节 / 点数 为 HD e c o d e的1 2。 本 文 的 算 法 不 仅 有 效 地 同时减少了需要语言模型 优化了解码网络的 规 模 , 预测的节点数 , 为后 续 的 快 速 解 码 搜 索 提 供 了 优 化 空间 。 由于本文采 取 三 音 子 模 型 进 行 建 模 , 可以方 便地应用于其他语种的语音识别任务上 。

1 2 4 6 4 9 8 3 7 4 0 4 4       1       6 5 1 1 8 5     3 0 6 7 0 5     2. 1 2   7 5 2 6 2 0     3 8 7 5 5 8     1. 9 4  

) 参考文献   ( R e f e r e n c e s
[ ] G 1 a l e s M, Y o u n S. T h e a l i c a t i o n o f h i d d e n M a r k o v m o d e l s             g p p   ] i n s e e c h r e c o n i t i o n[ J . F o u n d a t i o n s a n d  T r e n d s i n S i n a l           p g g ( ) : 2 0 0 8, 1 3 1 9 5 3 0 4. P r o c e s s i n - g, [ ] Y 2 o u n S .A r e v i e w o f a r e v o c a b u l a r o n t i n u o u s e e c h      l -  s g g y p    c ] , ( ) : J . I E E E  S i n a l P r o c e s s, 1 9 9 6 1 3 5 4 5 5 7 . r e c o n i t i o n[   - g g

表 2  英文解码网络大小对比 网络类型 原始网络 HD e c o d e   本文算法 压缩比例 ( 本文 算 ) 法相比 HD e c o d e 状态节点数 边数 预测节点数 1 6 2 8 1 8   1 3 1 0 8 9   7 9 0 4 8   1. 6 6

[ ] R 3 b a c h D,S c h u t e r R,N e H.A c o m a r a t i v e a n a l s i s o f           y y p y   / /P , d n a m i c n e t w o r k d e c o d i n C] r o c I C A S S P.P r a u e       y g [ g : , C z e c h I E E E P r e s s 2 0 1 1: 5 1 8 4 5 1 8 7.   - [ ] S ] / / 4 o l t a u H,S a o n G.D n a m i c n e t w o r k d e c o d i n r e v i s i t e d[ C         y g   , : , : P r o c A S R U.M e r a n oI t a l E E E P r e s s2 0 0 9 2 7 6 2 8 1 .     - yI [ ] M 5 o h r i e r e i r a i l e e i h t e d i n i t e t a t e  M, P  F, R  f  s y g  M. W / /P i n s e e c h r e c o n i t i o n[ C] r o c t h e A u t o m a t i c t r a n s d u c e r s           p g ,F : , S e e c h R e c o n i t i o n  W o r k s h o .P a r i s r a n c e I E E E P r e s s     p g p 2 0 0 0: 9 7 1 0 6. - [ ] W ,V 6 o o d l a n d C,O d e l l J a l t c h e v V, e t a l .L a r e v o c a b u l a r           g y / / P c o n t i n u o u s e e c h e c o n i t i o n s i n K [ C] r o c  s  r  u p g g  HT ,A : , I C A S S P.A d e l a i d e u s t r a l i a I E E E P r e s s 1 9 9 4: 1 2 5 1 2 8.   - [ ] Y :A 7 o u n S, R u s s e l l N, T h o r n t o n J .T o k e n P a s s i n S i m l e         g g p   C o n c e t u a l M o d e l f o r C o n n e c t e d S e e c h R e c o n i t i o n S s t e m s             p p g y [ ] ,UK: , S . C a m b r i d e C a m b r i d e U n i v e r s i t 1 9 8 9.   g g y [ ] Y ,V 8 o u n S, E v e r m a n n G,G a l e s M.T h e HT K B o o k e r s i o n         g   , : , 3. 4[ M] . C a m b r i d e UK C a m b r i d e U n i v e r s i t 2 0 0 6. g g  y [ ] O 9 r t m a n n s S,N e H, C o e n e n N. L a n u a e m o d e l l o o k a h e a d         y g g   / /P l a r e v o c a b u l a r s e e c h r e c o n i t i o n[ C] r o c I C S L P. f o r         g y p g   ,U , P i l a d e l h i a S A: I E E E P r e s s 1 9 9 6: 2 0 9 5 2 0 9 8.   - p [ ]S , a s s 1 0 h a o J L i T, Z h a n Q, e t a l .A o n e r e a l t i m e d e c o d e r         -   -   g p   ] m e m o r e f f i c i e n t s t a t e n e t w o r k[ J . I E I C E  T r a n s o n u s i n -       y g   ( ) : I n o r m a t i o n a n d  S s t e m s, 2 0 0 8, 9 1 3 5 2 9 5 3 7.   - f y [ ]O 1 1 d e l l J .T h e U s e o f C o n t e x t i n L a r e V o c a b u l a r S e e c h               g y p   , , R e c o n i t i o n[ D] . C a m b r i d e UK: C a m b r i d e U n i v e r s i t 1 9 9 5 .   g g g y [ ]O 1 2 d e l l N.N e t w o r k a n d L a n u a e M o d e l s f o r U s e i n a S e e c h                   g g p R e c o n i t i o n S s t e m[ P] .N o . 6 6 6 8 2 4 3 B 1.U S A, 2 0 0 3.   g y [ ]N 1 3 o l d e n D, N e H,S c h l u t e r R.E x l o i t i n s a r s e n e s s o f       y p g p     b a c k i n o f f a n u a e o d e l s o r f f i c i e n t o o k a h e a d n -  l  m  f  e  l -  i g g g / /P ,C : , L V C S R[ C] r o c I C A S S P.P r a u e z e k h I E E E P r e s s     g 2 0 1 1: 4 6 8 4 4 6 8 7. - [ ]C 1 4 h e n L, C h i n f f i c i e n t a n u a e o d e l o o k a h e a d    K. E  l  m  l - g g

2 0 9 7 3 9 2 3 0 1 7 7 4       2       9 7 0 0 1 2 1 6 5 0 5 0     1       4 6 3 8 4 8     2. 0 9   6 3 0 1 7 9     1. 8 5  

3. 2. 2  解码器性能实验对比 实验使用 C C T V 1 h 的新闻语音材料作为测试数   据 。 声学模型状态数为 3 0 0 0,字典大小为 6 0 0 0 0,     使用 T r i r a m 语言模型 。 图 8 给出了使用本文算法 g 构建的 解 码 网 络 与 HD e c o d e r的 性 能 对 比。 可 见, 使用本文算法搭 建 的 解 码 网 络 , 可 取 得 和 HD e c o d e 同等的性能 。 同时 , 由于本文解码网络有了大幅度 的压缩 , 解码器具有很大的提速空间 。

图 8 H D e c o d e和本文算法构建的解码网络性能对比

r o b a b i l i t i e s u s i n l o w e r o r d e r LM l o o k a h e a d e n e r a t i o n           - p g g   / /P ,U i n f o r m a t i o n[ C] r o c I C A S S P.L a s V e a s S A: I E E E     g , P r e s s 2 0 0 8: 4 9 2 5 4 9 2 8. -


相关文章:
基于微软语音引擎的语音识别_图文
基于微软语音引擎的语音识别_计算机软件及应用_IT/...智能物联网技术的发展,语音识别技术将在远程智能控制...识别、无词汇数量限制的识别,独立单个词语与串联连续...
ASR自动语音识别技术定义
以及连续语音识别(听写)等 其中语音命令识别引擎要求...说的语音中最多只能含有一个词表中定义的词; 而...相结合,可以构建出更加复杂的应用,例如语音到语音...
语音识别方法及发展趋势分析
而非特定人、大词汇量、连续语音识别仍是 目前阶段...在标准语音识别 库 TIMIT 以及大词表非特定人电话...由于声学信号的动态时变、瞬时和随机性,单靠声学...
基于神经网络的语音识别研究
这种算法可以不经过端点检测和分割 ,构建连续语音 中...关键词:双权值神经网络 概述 语音是人类交流和交换...了动态搜索的算法,实现 了不用切分的连续语音识别。...
语音识别调研
语音识别调研_互联网_IT/计算机_专业资料。对语言识别...孤立词向连续词、 小词汇量向大词汇量方向扩展 研究...资源,使得构建通用大规模语言模型和声学模型成为可能...
语音识别综述
语音识别综述_计算机硬件及网络_IT/计算机_专业资料。...词语音识别算法被 开发, 比如多级动态规划语音识别...因此对大规模、 多用户和大量识别需求的系统, 服务...
基于filler模型的语音关键词识别
通过分析关键词检测系统的置信特征,选择动态垃圾得分...(3)用音素或音节识别器构建音素或音节的词图, 再...联合开发的基于有限状 态语法的开源连续语音识别引擎...
【麦克风文字输入教程一】安装语音识别引擎
【麦克风文字输入教程一】安装语音识别引擎_计算机硬件及网络_IT/计算机_专业资料。【麦克风文字输入教程一】安装语音识别引擎 【麦克风文字输入教程一】安装语音识别引擎...
语音识别技术的研究与发展
使语音识别水平明显上 升;Vintsyuk 提出了动态编程...开发的 ViaVoice 和 Microsoft 开发的中文识别引擎都...软件都是面向非特定人、大词 汇量的连续语音识别...
语音识别技术详介和应用前景分析
的困难.这些特点包括多变性,动态性,瞬时性和连续性...语义分析.对小词表语音识别系统,往往不需要 语言...由于大规模集成电路技术的发展,这些复杂的语音识别...
更多相关标签:
大规模元搜索引擎技术 | 搜索引擎索引构建 | 南非大规模骚乱 | 俄举行大规模军演 | 党领导的第一次大规模 | 北京大规模清理外地人 | 银行接到大规模投诉 | 开发大规模web应用 |