当前位置:首页 >> 信息与通信 >>

基于中国少数民族语言的语音识别研究


基于中国少数民族语言的语音识别研究
陈楠
(云南民族大学 电气信息工程学院,云南 昆明 650031)
摘要:语音识别是当今语音研究的热点,它是一门涉及多领域的交叉学科,也是模式识别和人工智能领域 的重要分支。针对中国有着 55 个少数民族这一实际情况,不少语言都处于濒临状态,因此,本文主要介绍 了语音识别在少数民族语言应用中的技术和概况。希望利用这

一数字化技术达到保护少数民族语言文化遗 产的目的。 关键字:语音识别,隐马尔可夫,数字化处理,少数民族语言

Based on China's minority language speech recognition research
CHEN Nan (College of Electrical and Information Engineering,Yunnan University of Nationalities,Kunming650031,China) Abstract: Speech recognition is the voice of today's hot, it is an interdisciplinary field involving multiple, pattern recognition and artificial intelligence is an important branch. China has 55 ethnic minority groups for the actual situation, many languages are at the brink of the state, therefore, this paper describes the application of speech recognition in minority languages in the technology and profiles. Hope to use this digital technology to achieve the purpose of protecting the cultural heritage of minority languages. Keywords:speech recognition, Hidden Markov, digital processing, minority languages

1 引言
1.1 语音识别技术概述 语音识别技术,也被称为自动语音识别(Automatic Speech Recognition, ASR) ,其目 标是将人类的语音中的词汇内容转换为计算机可读的输入, 例如按键、 二进制编码或者字符 序列。 与说话人识别及说话人确认不同, 后者尝试识别或确认发出语音的说话人而非其中所 包含的词汇内容 。 语音识别技术是以语音信号处理为研究对象,让机器接收并识别、理解语音信号,并将 其转换为相应数字信号的技术。 让机器听懂人类的语言, 这是人们长期以来梦寐以求的事情, 而语音识别是一门非常复杂的交叉性学科,它涉及语音语言学、计算机科学、信号处理学、 生理学、心理学等一系列学科,是模式识别的重要分支。50 年代,是语音识别研究工作的 开始时期,它以贝尔实验室研制成功可识别十个数字的 Audry 系统为标志。20 世纪 80 年代 语言识别研究进一步走向深入,基于特定人孤立语音技术的系统研制成功。在过去的 30 年 里,隐马尔可夫模型和人工神经元网络在语音识别中得到了成功的应用。 语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和 听觉机理、人工智能等等。并通过算法和计算机技术相结合的方式来实现。目前,这样的系
[1]

统能够做到识别理解数十万条词汇的连续语音信号。 这种现代模式识别系统除了在语音领域 的应用外, 还可以广泛应用于信号处理和模式识别的其他领域。 语音识别一般分为两个步骤: 学习和识别阶段。 学习阶段的任务是建立识别基本单元的声学模型以及语言模型。 识别阶段 是将输入的目标语言的特征参数和模型进行比较, 得到识别结果。 语音识别系统本质上讲是 一种模式识别系统,其原理如下图所示:
[2]

图 1 语音识别原理示意图

该流程简单介绍如下: (1)语音采集设备如话筒、电话等将语音转换成模拟信号。 (2)数字化一般包括预滤波、采样和 A/D 变换。该过程将模拟信号转变成计算机能处 理的数字信号。 (3)预处理一般包括预加重、加窗分帧。经预处理后的信号被转换成了帧序列的加窗 的短时信号。 (4)参数分析是对时信号进行分析并提取语音特征参数的过程,如时域、频域分析, 矢量量化等。 (5)语音识别是目标语音根据特征参数与模型库中的参数进行比较,产生识别结果的 过程。一般有模板匹配法、随机模型法和神经网络等。 1.2 中国少数民族语言概述 语言是一种特殊的社会资源, 语言资源由语言本体和语言应用两部分构成。 语言本体包 括语音、词汇、语法、语义系统, 是语言资源的物质基础语言应用包括人类社会对语言的各 种使用及其所产生的影响, 是语言资源价值的具体体现。 中国是一个统一的多民族国家, 已确定民族成分的有 56 个民族, 55 个人口较少的民 有 族。多民族、多语言、多文种(文字和语音)并存是我国的一个基本国情。除回族、满族已 全部转用汉语外, 其他 54 个民族都有自己的语言, 30 个民族有余自己的语言相一致的文 有 字;分七种语系。由于有的民族使用一种以上的语言或文字,如瑶族使用 3 种语言,高山族 使用 13 多种语言;傣族使用 4 种文字,景颇族使用 2 种文字等,因此,共有 73 种语言,55 多种文字,63 多种语言 。 随着社会开放程度的不断提高 ,民族语言文字的使用有衰退的趋势 ,中国一些使用人 口比较少的民族语言已经处于濒临状态 ,民族语言文字的消亡 ,直接危及民族文化的繁荣 和发展 ,抢救和保护民族语言文字资源 ,是繁荣和发展民族文化的重要前提 ,而且刻不容 缓。
[3]

2 中国少数民族语言发音特点分析
2.1 中国少数民族语音特性分析 其中由于我国是个多民族的国家,个少数民族的语音各有其特点,先统计如下表 :
[4]

表 1 中国少数民族语言语音情况表

表 2 中国少数民族语言语音情况表-续表 1

表 3 中国少数民族语言语音情况表-续表 2

表 4 中国少数民族语言语音情况表-续表 3

2.2 中国少数民族语音识别研究现状 在语音识别的领域中主要涉及到的研究内容包括:语音信号处理、特征提取和选择;语 音识别模型、识别基元及模型研究。目前,句不完全统计,我国共有 36 个民族或多或少的 开展了语音方面的研究工作, 其中研究工作相对比较深入的少数民族语言种类有蒙古语、 藏 语、维吾尔语、哈萨克语、壮(侗)语等。但是黎族,傈僳族,仫佬族,普米族,京族,塔 塔尔族,门巴族,珞巴族,布依族的研究在语言学和音位学上的研究都很少见。

3 少数语言研究中的关键技术和模型

3.1 语音识别技术流程 少数民族语言的语音识别与其他语音识别技术类似,可以将流程简单概括为:

图 2 少数民族语音识别流程图

3.2 预处理算法 语音信号在处理成数字信号的过程中,将受到周围的各环境的影响而使语音产生变形, 预处理的任务就是修正这种变形, 尽可能的还原人的有效发音。 少数民族语音识别预处理包 括:信号获取、去除噪声、语音增强三个环节。 3.2.1 语音信号的获取 计算机声卡作为语音信号与计算机的接口卡件, 其最基本的一项功能就是 A/D 转换。 声 卡是 pc 的一种多媒体设备,可以用 windows 的 MCI(Media Control Interface)命令来控 制声卡 。
[5]

图 3 信号获取过程中相关函数使用流程示意图

3.2.2 语音信号的降噪增强 在语音采集过程中,都会或多或少的产生背景噪音,设法去除语音信号中的噪声,增强

有用信号,提高语音信号的信噪比就成为预处理研究中的一个重要步骤。 常用的语音降噪增强算法 (1)基于语音频谱特征的谐波增强法 (2)基于短时谱估计的增强算法 (3)基于信号子空间处理的增强算法 (4)于听觉掩蔽效应的语音增强算法 (5)基于小波变换的语音增强算法 3.3 端点检测算法 端点检测是指从背景噪声中找出语音的开始点和终止点,是语音处理领域的基本问题, 特别是在孤立词语识别中, 找出每个单字的语音信号范围是很重要的, 确定语音信号的开始 和终止可以减少系统的大量计算, 使系统运行效率得到很大的提高。 少数民族语言的端点检 测采用加窗、短时能量、过零率相结合的方法进行。 [6] 3.3.1 加窗 (1)矩形窗

?1,0 ≤ n ≤ N ? 1 w(n) = ? ? 0, n > N
(2)汉宁窗

(1)

?0.54 ? 0.46 cos(2πn N ? 1),0 ≤ n ≤ N ? 1 w(n) = ? 0, n > N ?
(3)汉明窗

(2)

?0.5[1 ? cos(2πn N ? 1)],0 ≤ n ≤ N ? 1 w(n) = ? 0, n > N ?
3.4 针对语音特征建立语音识别模型 3.4.1 原始语音数据

(3)

我国少数民族语言的语音同英语等其他语音一样, 原始语音数据量大, 且多余信息占很 大比例,需要提取的核心特征参数为频幅、频率、和时长,可以将其看为一个三维的数据模 型如图:

图 4 原始语音的三维模型

3.4.2 MFCC 特征参数 MFCC 是基于人的听觉机理,通过模拟人的听觉系统导出的声学特征对不同频率的语音 具有不同的感知能力,在 1000Hz 以下,感知能力与频率间的线性关系,而 1000Hz 以上,感 知能力则与频率成对数关系。

图5

MFCC 提取过程示意图

3.4.3 HMM 模型 在语音识别领域中占据主导地位的 HMM,包括有满协方差矩阵和对角协方差矩阵的连续 混合密度的 HMM 、半连续的 HMM ,以及基于 VQ 的离散 HMM .一个 HMM 通常由状态转移 概率矩阵 A、观察概率密度函数矩阵 B 和初始概率分布矢量π表征。 隐马尔可夫模型是一种用参数表示的, 用于描述随机过程统计特性的概率模型, 他是马 尔可夫链演变而来的。 隐马尔可夫模型既解决了用短时模型描述平稳段的信号, 有解决了每 一个短时间平稳短是如何转变到下一短时平稳段的问题。 由于语音结构信息是多层次的, 除 了语音特性外,还牵扯到音调、音长、能量等超音段信息及语法、语句等高层次语音结构信 息。而 HMM 既可以描述瞬变的随机过程,又可以描述动态的随机过程转移的特性,所以他能 够利用这些超音段和语音结构的信息。 HMM 可分为两部分,一部分是马尔可夫链,由 π ,A 描述,产生的输出为状态序列,另 一部分是一个随机过程,由 B 描述,产生的输出为观察值序列,T 为观察值时间长度 。
[7]

图 6

HMM 的两个组成部分

3.4.4 CDCPM 模型 中心距离连续概率模型(Center-Distance Continuous Probabilistic Model,CDCPM) 新概率统计模型,可用于非特定人或特定人、孤立词或连续语音识别。模型的参数是每个状 态的均值特征矢量以及特征矢量与其均值特征矢量之间距离的均值; 与连续 HMM(CHMM)不同 的是, 中心距离连续概率模型(CDCPM) 只保留 HMM 模型中的 B 矩阵, B 中的 PDF 被一个一 且 维的 PDF 取代,它没有状态转移概率矩阵 A,且输出观察概率矩阵 B 中各状态的概率密度函 数只是一个一维的(中心距离的)概率密度函数(PDF)。在三个不同的数据库上进行的实验表 明这是一个很有潜力的模型, 它极大地减小了模型存储的空间复杂度和模型训练及识别的时 间复杂度。 3.5 少数民族的语言模型 语言模型主要分为规则模型和统计模型两种。 统计语言模型是用概率统计的方法来揭示 语言单位内在的统计规律,其中 N-Gram 简单有效,被广泛使用。 N-Gram:该模型基于这样一种假设,第 n 个词的出现只与前面 N-1个词相关,而与其它 任何词都不相关, 整句的概率就是各个词出现概率的乘积。 这些概率可以通过直接从语料中
[7]

统计 N 个词同时出现的次数得到。由于计算量太大,N 一般取值不会很大,常用的是二元的 Bi-Gram 和三元的 Tri-Gram。 语言模型的性能通常用交叉熵和复杂度(Perplexity)来衡量。交叉熵的意义是用该模 型对文本识别的难度,或者从压缩的角度来看,每个词平均要用几个位来编码。复杂度的意 义是用该模型表示这一文本平均的分支数, 其倒数可视为每个词的平均概率。 平滑是指对没 观察到的 N 元组合赋予一个概率值, 以保证词序列总能通过语言模型得到一个概率值。 通常 使用的平滑技术有图灵估计、删除插值平滑、Katz 平滑和 Kneser-Ney 平滑。

4 建立相关的语音库
语音数据库是语音识别、 语音合成和实验语音学研究的基础。 汉语语音是被研究历程告 诉我们,实验语音研究和提高识别系统顽健性,离不开大规模、多样化、高质量的语音数据 库。因此,迫切需要加强数据库建设。

图 7

民族语言中相关库的建立

5 期望和总结
语言作为一种认知系统、 一种思维方式、 一种意识形态的直接体现 ,包含着该语言使用 者对客观世界和主观世界的认知体系,积淀了该语言使用者对客观世界和主观世界的认知成 果。 因此 ,对一个民族的语言的研究也是探寻一个民族认知心理机制的重要途径。 也正因为 如此 ,人们才担心 ,语言多样性的丧失可能会导致人类思维方式的退化和绝对化问。 对于人 类文明来说,所有的语言都是一笔巨大的财富。而且 ,我们也可以推测,目前所知的 6000 多 种类语言中,没有哪一种语言在发展过程中没有受到过其他语言的或多或少的影响。从这个 意义上说 , 研究如何保护和利用少数民族语言也是在尝试破译人类社会文化多样性的密码。 中国的少数民族语言是人类社会文化的一笔巨大财富,所以主要的研究方法还是通过数字化 的技术来对我国个少数民族语言文字等非物质文化进行补救,可利用的数字化技术包括 : (1)数字化录音及录像技术 (2)动态三维成像技术 (3)数字化舞蹈编排与声音驱动技术 (4)数字化图案数据库及计算机辅助设计系统
[8]

因此, 希望国内各省份的语言研究工作者应该有所作为, 对此展开长期深人的系统研究, 保护我们的非物质文化遗产 ,就是保护中华民族的文化 ,弘扬民族的传统精神。 参考文献
[1]维基百科.(2011-07-31).[2011-10-04].http://zh.wikipedia.org [2]尹江艳.基于 HMM 和 ANN 语音识别研究[J].2007.4:14. [3]中国少数民族语言[M].成都:四川民族出版社,1987:259-268 [4]王昆仑,吐尔洪江?阿不都克力木.中国少数民族语音技术研究进展[C]//第十届全国人机语言通讯学术 会议.中国兰州,2009-08-15 [5]裴春宝.基于标准拉萨语的藏语语音识别技术研究[D].西藏大学,2011:45-47 [6]苗苗.基于 HMM 的语音识别技术的研究[D].西安建筑科技大学,2007-05-09:10 [7]郑方,吴文虎,方棣棠.CDCMP 及其在语音识别中的应用[J].软件学报,1996-10-07:69-75 [8]蔡群,任荣喜,邱望标.贵州少数民族非物质文化遗产的数字化保护方法研究[J].贵州工大学学报, 2007-08:36


相关文章:
2016中国少数民族语言文学考研分析
2016中国少数民族语言文学考研分析_研究生入学考试_高等教育_教育专区。2016中国少数民族语言文学考研分析2016 中国少数民族语言文学考研分析 一、中国少数民族语言文学考...
2017考研中国少数民族语言文学专业及院校推荐
2017考研中国少数民族语言文学专业及院校推荐_研究生入学考试_高等教育_教育专区。点这里,获取考研复习资料 2017 考研已经拉开序幕,摆在眼前的首要问题是应该如何选择...
中国少数民族语言种类
中国少数民族语言种类_文学研究_人文社科_专业资料。...一般在语法、语音和词汇方面,都在不同程度上具有共...基于中国少数民族语言的... 9页 2下载券 中国少数...
2016考研 中国少数民族语言文学专业介绍
2016考研 中国少数民族语言文学专业介绍_研究生入学考试_高等教育_教育专区。中公考研提供考研大纲解析,考研复习资料,考研历年真题等,更多考研相关信息,请访问中公考研!...
中国少数民族语言文学 专业博士生培养方案
2005 年,开始于中国少数民族语言文学专 业设置中国古代文学理论研究方向。本专业为我校传统优势学科,在汉魏六朝唐代诗歌 与诗学、 明清小说等方面成果显著, 具有...
少数民族语言发展情况的调查
基于这样的现状, 研究少数民族的语言发展情况就显得十分重要。 今以少数民族地区...目前,文化部启动的“中国民族 民间文化保护工程”中,对少数民族濒危语言的抢救与...
中国的少数民族语言文字概况
中国的少数民族语言文字概况_军事/政治_人文社科_专业资料。中国的少数民族语言文字概况中国是一个统一的多民族国家,民族多、语言多、文字多。除汉族外,已确定民族...
我国的少数民族语言文字概况
我国的少数民族语言文字概况_文学研究_人文社科_专业资料。我国的少数民族语言文字...但是汉族的文字,也是全国各个少数民族通用的 文字,是在国际活动中代表中国的法定...
论少数民族语言的文化传承
浅谈传承少数民族文化的几点举措摘 要:在中国浩瀚的历史文明当中,少数民族语言作为少数民族文化传承的载体,发挥了 不可磨灭的重要作用。 如今相较我们在强调汉语言...
少数民族语言教育存在的困境
第三,我国少数民族语言的活力值普遍偏低。据一些学者的研究,中国各少 数民族语言的活力值可以分为三组。第一组的活力值相当于汉语的56%-71%,包 括维吾尔、...
更多相关标签:
中国少数民族语言翻译 | 少数民族语言翻译局 | 少数民族语言在线翻译 | 少数民族语言 | 少数民族语言翻译 | 少数民族语言文字 | 中国少数民族语言文学 | 少数民族语言翻译器 |