当前位置:首页 >> 信息与通信 >>

特定人语音识别设计的研究


特定人语音识别设计的研究 特定人语音识别设计的研究……………………………………………1 摘要………………………………………………………………………2 Abstract…………………………………………………………………...3 目录…………………………………………………………………… ...4 第一章 绪论……………………………………………………………..5 1.1 语音识别技术的

历史………………………………………6 1.2 语音识别技术的现状……………………………………...7 1.3 语音识别技术的发展趋向…………………………………8 第二章 特定语音识别芯片可行方案介绍……………………………..9 2.1 凌阳 SPCE061A 芯片……………………………………10 2.2 RSC 系列芯片……………..……………………………..11 2.3 芯片 WS—100 系列………………………………………12 第三章 特定人语音识别产品开发……………………………………13 3.1 特定人语音识别技术的开发流程………………………..14 3.2 特定人语音识别技术中的难点…………………………..15 第四章 结论及展望……………………………………………………16 参考文献………………………………………………………………..17 致谢…………………………………………………………………….18 摘要 摘 要: 回顾语音识别技术的发展历史,调查数家语音识别系统企业 的产品,了解语音识别的开发流程,并对语音识别技术面临的问题和

发展前景进行了讨论。 关键词: 语音识别;产品调查;开发流程;技术难点;发展前景; 关键词: Abstract Abstract: The review of the history of speech recognition technology to investigate several home products business speech recognition system to understand the development process of speech recognition, speech recognition technology and the problems and development prospects were discussed. Keywords: speech speech recognition; product investigation;

development process; technical difficulties; development prospects; 第一章 绪论 1.1 语音识别技术的历史 (1)国内研究历史 国内研究历史 我国语音识别研究工作起步于五十年代, 但近年来发展很快。 研究水平也从实验室逐步走向实用。从 1987 年开始执行国家 863 计划后, 国家 863 智能计算机专家组为语音识别技术研究 专门立项,每两年滚动一次。我国语音识别技术的研究水平已 经基本上与国外同步, 在汉语语音识别技术上还有自己的特点

与优势,并达到国际先进水平。中科院自动化所、声学所、清 华大学、北京大学、哈尔滨工业大学、上海交通大学、中国科 技大学、北京邮电大学、华中科技大学等科研机构都有实验室 进行过语音识别方面的研究, 其中具有代表性的研究单位为清 华大学电子工程系与中科院自动化研究所模式识别国家重点 实验室。 清华大学电子工程系语音技术与专用芯片设计课题组,研发 的非特定人汉语数码串连续语音识别系统的识别精度,达到 9 4.8%(不定长数字串)和 96.8%(定长数字串)。在有 5%的 拒识率情况下,系统识别率可以达到 96.9%(不定长数字串) 和 98.7% (定长数字串) 这是目前国际最好的识别结果之一, , 其性能已经接近实用水平。研发的 5000 词邮包校核非特定人 连续语音识别系统的识别率达到 98.73%,前三选识别率达 9 9.96%;并且可以识别普通话与四川话两种语言,达到实用要 求。 中科院自动化所及其所属模式科技(Pattek)公司 2002 年发布了他 们共同推出的面向不同计算平台和应用的“天语”中文语音系 列产品——PattekASR,结束了中文语音识别产品自 1998 年 以来一直由国外公司垄断的历史。 (1)国外研究历史 国外研究历史

语音识别的研究工作可以追溯到 20 世纪 50 年代 AT&T 贝尔 实验室的 Audry 系统, 它是第一个可以识别十个英文数字的语 音识别系统。 但真正取得实质性进展,并将其作为一个重要的课题开展研 究则是在 60 年代末 70 年代初。这首先是因为计算机技术的 发展为语音识别的实现提供了硬件和软件的可能, 更重要的是 语音信号线性预测编码(LPC)技术和动态时间规整(DTW) 技术的提出, 有效的解决了语音信号的特征提取和不等长匹配 问题。这一时期的语音识别主要基于模板匹配原理,研究的领 域局限在特定人,小词汇表的孤立词识别,实现了基于线性预 测倒谱和 DTW 技术的特定人孤立词语音识别系统;同时提出 了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。 随着应用领域的扩大,小词汇表、特定人、孤立词等这些对 语音识别的约束条件需要放宽, 与此同时也带来了许多新的问 题:第一,词汇表的扩大使得模板的选取和建立发生困难;第 二, 连续语音中, 各个音素、 音节以及词之间没有明显的边界, 各个发音单位存在受上下文强烈影响的协同发音(Co-articul ation)现象;第三,非特定人识别时,不同的人说相同的话 相应的声学特征有很大的差异,即使相同的人在不同的时间、 生理、 心理状态下, 说同样内容的话也会有很大的差异; 第四, 识别的语音中有背景噪声或其他干扰。 因此原有的模板匹配方 法已不再适用。

实验室语音识别研究的巨大突破产生于 20 世纪 80 年代末: 人们终于在实验室突破了大词汇量、 连续语音和非特定人这三 大障碍,第一次把这三个特性都集成在一个系统中,比较典型 的是卡耐基梅隆大学(CarnegieMellonUniversity)的 Sphinx 系 统,它是第一个高性能的非特定人、大词汇量连续语音识别系 统。 这一时期,语音识别研究进一步走向深入,其显著特征是 H MM 模型和人工神经元网络(ANN)在语音识别中的成功应用。 HMM 模型的广泛应用应归功于 AT&TBell 实验室 Rabiner 等 科学家的努力,他们把原本艰涩的 HMM 纯数学模型工程化, 从而为更多研究者了解和认识, 从而使统计方法成为了语音识 别技术的主流。 统计方法将研究者的视线从微观转向宏观,不再刻意追求语 音特征的细化,而是更多地从整体平均(统计)的角度来建立 最佳的语音识别系统。在声学模型方面,以 Markov 链为基础 的语音序列建模方法 HMM(隐式 Markov 链)比较有效地解 决了语音信号短时稳定、长时时变的特性,并且能根据一些基 本建模单元构造成连续语音的句子模型, 达到了比较高的建模 精度和建模灵活性。在语言层面上,通过统计真实大规模语料 的词之间同现概率即 N 元统计模型来区分识别带来的模糊音 和同音词。另外,人工神经网络方法、基于文法规则的语言处 理机制等也在语音识别中得到了应用。

20 世纪 90 年代前期,许多著名的大公司如 IBM、苹果、AT &T 和 NTT 都对语音识别系统的实用化研究投以巨资。语音 识别技术有一个很好的评估机制,那就是识别的准确率,而这 项指标在 20 世纪 90 年代中后期实验室研究中得到了不断的 提高。比较有代表性的系统有:IBM 公司推出的 ViaVoice 和 DragonSystem 公司的 NaturallySpeaking,Nuance 公司的 Nu anceVoicePlatform 语音平台, Microsoft 的 Whisper,Sun 的 V oiceTone 等。 其中 IBM 公司于 1997 年开发出汉语 ViaVoice 语音识别系 统,次年又开发出可以识别上海话、广东话和四川话等地方口 音的语音识别系统 ViaVoice'98。 它带有一个 32,000 词的基本 词汇表, 可以扩展到 65,000 词,还包括办公常用词条, 具有“纠 错机制”,其平均识别率可以达到 95%。该系统对新闻语音识 别具有较高的精度, 是目前具有代表性的汉语连续语音识别系 统。
1.2 语音识别技术的现状 在电话与通信系统中,智能语音接口正在把电话机从一个单纯的服务工具变成为一个 服务的“提供者”和生活“伙伴” 使用电话与通信网络,人们可以通过语音命令方便地从 ; 远端的数据库系统中查询与提取有关的信息;随着计算机的小型化,键盘已经成为移 动平台的一个很大障碍,想象一下如果手机仅仅只有一个手表那么大,再用键盘进行 拨号操作已经是不可能的。语音识别正逐步成为信息技术中人机接口的关键技术,语 音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音 技术的应用已经成为一个具有竞争性的新兴高技术产业。 语音识别技术发展到今天,特别是中小词汇量非特定人语音识别系统识别精度已 经大于 98%,对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常 应用的要求。由于大规模集成电路技术的发展,这些复杂的语音识别系统也已经完全 可以制成专用芯片,大量生产。在西方经济发达国家,大量的语音识别产品已经进入

市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能,还有 语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电 话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息,并且取得很好的 结果。 调查统计表明多达 85%以上的人对语音识别的信息查询服务系统的性能表示满 意。 可以预测在近五到十年内,语音识别系统的应用将更加广泛。各种各样的语音识 别系统产品将出现在市场上。人们也将调整自己的说话方式以适应各种各样的识别系 统。在短期内还不可能造出具有和人相比拟的语音识别系统,要建成这样一个系统仍 然是人类面临的一个大的挑战,我们只能一步步朝着改进语音识别系统的方向一步步 地前进。

特定人语音识别设计技术流程 目前,常用的说话人识别方法。其系统构成如图

语 音 入

预处理

特征提 取

参考模 块库

识别结果输出
匹 模 配 式

语音输入

预处理:包括语音信号的采样、反混叠滤波、语音增强。 特征提取:用以从语音信号波形中提取一组或几组能够描述语音信号特征的参数。 构建参考模块:词表中每个词对应一个参考模式,它由这个词重复发音多遍,再经特征提 取和某种训练中得到。 模式匹配: 按照一定的准则求取待测语音特征参数和语音信息与模式库中相应模板之间的失 真测度,最匹配的就是识别结果。

特定人语音识别的方法流程 特定人语音识别的方法流程 目前,常用的说话人识别方法有模板匹配法、统计建模法、联接主义法(即人工 神经网络实现)。考虑到数据量、实时性以及识别率的问题,采用基于矢量量化 和隐马尔可夫模型(HMM)相结合的方法。

预处理是指对语音信号的特殊处理:预加重,分帧处理。预加重的目的是提升高频部 分,使信号的频谱变得平坦,以便于进行频谱分析或声道参数分析。用具有 6dB/ 倍频程的提升高频特性的预加重数字滤波器实现。虽然语音信号是非平稳时变的, 但是可以认为是局部短时平稳。故语音信号分析常分段或分帧来处理。 语音特征矢量提取单元 说话人识别系统设计中的根本问题是如何从语音信号中提取表征人的基本特征。即 语音特征矢量的提取是整个说话人识别系统的基础,对说话人识别的错误拒绝率和 错误接受率有着极其重要的影响。同语音识别不同,说话人识别利用的是语音信号 中的说话人信息,而不考虑语音中的字词意思,它强调说话人的个性。因此,单一 的语音特征矢量很难提高识别率。该系统在说话人的识别中采用倒谱系数加基因周 期参数,而在对控制命令的语音识别中仅采用倒谱系数。其中,常用的倒谱系数有 2 种,即 LPC(线性预测系数)和倒谱参数(LPCC),一种是基于 Mel 刻度的 MFLL(频率 倒谱系数)参数(Mel 频率谱系数)。 训练单元 训练单元的功能是把事先收集到的语音利用一定的算法为每一个待识别的说话人训 练出与之相匹配的参数。针对说话人识别在汽车应用中的不同的要求,训练单元也 分为 2 部分:对说话人识别的训练和对待识别词的训练。 识别单元 识别单元的功能是利用经训练已经获得的 HMM 模型参数 和测得的说话人的基音 周期在一定的判决条件下辨认出待识别的说话人并估计出待识别的控制命令词串。 针对 HMM 模型参数通常采用的判决条件是最大后验概率,用 Viterbi 算法实现。 后处理单元 充分利用每个说话人的声道参数和词条中各状态持续时间的概率分布来改进系统的 识别率。

3.2 特定人语音识别技术中的难点

(1) 语音信号的多变性 语音信号是非平稳随机信号, 不但不同发音者发音之间存在重大 的差异,即使同一人同一语音的不同次发音,也存在很大差异。 (2) 噪声影响 当实际环境中有噪声存在时, 容易造成训练与测试环境不匹配导 致语音识别系统性能急剧下降。 (3) 端点检测 统计表明语音识别系统一半以上的识别错误来自端点检测错误。 在安静环境下有声段和无声段时能量存在很大差异, 由此判断语音的 起点。 但是当噪声的能量和语音信号的能量接近时就可能造成端点检 测的误差从而导致识别结果错误 (4) 词与词的特征空间混叠 语音识别的常规方法是利用语音信号的短时周期特性将语音时 域采样信号分为若干段,计算出每一段的特征矢量序列作为识别参 数。但是很多不同的词语的矢量序列在特征空间中存在混叠现象,甚 至有些不同词语的混叠程度会超过同一词语的不同次发音, 从而降低 识别率。

结论及展望 结论及展望 随着社会的进步和科技的发展, 人们对生活以及居住环境提出了更高 的要求,智能家居逐渐成为中国家居消费市场的新潮流。目前,国内 部分地区、特别是经济比较发达的地区,已经有很多社区实现了智能 家居生活。智能家居的日渐兴起已经开始影响到人们生活的方方面 面,改变了人们日常的生活习惯,提高了人们的生活质量,促使家庭 实现了生活现代化,给人们的家居生活带来了全新的感受。 据调查,到 2010 年智能家居全球市场规模将达到 5000 亿美元 以上,届时将有数亿个家庭使用数字化设备。中国每年在智能家居领 域有超过 700 亿市场份额,并以 20%的速度快速增长。而随着中国 各地政府提出建设平安城市、上海世博会、广州亚运会、深圳大运会 陆续举行,都将给智能家居行业带来巨大商机。 当前,随着第三代移动通信技术(3rd-generation,3G)成熟和 商业的广泛应用,智能家居借助这个平台也在寻求更快速的发展。目 前移动运营商推出各种各样的 3G 产品运营模式, 比如: 家庭信息化、 家庭智能、家庭安全等增值运营业务,必将为家电的智能化、网络化 培育日趋完善的产业链。视频通话、家庭远程监控、手机网络控制, 以及通过 3G 技术发展的各种智能家电的控制等等都得到了消费者的 关注,依托 3G 技术的家庭智能化正在变成现实。

参考文献 1 声控 3C 智能型电冰箱技术 - 电子发烧友网 2. 将声控技术应用于电动窗帘 - 河南家具 - 中国家具网 3 将声控技术应用于窗帘电机的技术浅析-声控,窗帘电机-智能家居行 业-hc360 慧聪网 4 语音识别技术的研究与发展 作者:王敏妲 5 特定人语音识别技术研究-----土豆网 6 论特定人语音识别技术在汽车控制上的应用 —— 电子技术信息 ——IC 电子技术信息 网 7 多功能遥控防盗声控灯设计————土豆网 8 排行榜 - 中国智能家居十大品牌排行榜 - 新榜网

致谢 本课题是本人对于特定人语音识别技术的粗略了解。 其中难免有所不 足,望广大读者,批评指出。本人定当适当修改,谢谢!


相关文章:
特定人语音识别设计的研究
特定人语音识别设计的研究 特定人语音识别研究特定人语音识别研究隐藏>> 特定人语音识别设计的研究 特定人语音识别设计的研究………1 摘要………2 Abstract………....
语音识别系统的开题报告
国家 863 智能计算机专家组为语音识别技术研究专门立项,并取得了高水平 的科研成果。我国中科院自动化所研制的非特定人、连续语音听写系统和汉语语 音人机对话系统,...
基于ARM的非特定人语音识别系统的设计方案
系统电路简单,性价比高,识别距离和识别精度都可以满足嵌入式应用。 1 非特定人语音识别技术原理 非特定人语音识别技术研究的最终目的是让计算机等设备能够“听懂”...
特定人语音控制音乐播放器软件系统设计毕业论文
特定人语音控制音乐播放器软件系统设计 摘要 语音识别技术是人类迈向高度智能化和自动化的信息社会所必备的关键技 术之一。经过几十年的艰苦探索和研究,语音识别技术...
语音信号的提取与识别技术(说话人识别系统)的研究-开题报告
语音信号的提取与识别技术(说话人识别系统)的研究-开题报告_其它_高等教育_教育...中北大学 毕业设计(论文)开题报告 学生姓名: 学专院、系: 业: 学号: 信息与...
语音识别系统设计
语音识别系统设计_电子/电路_工程科技_专业资料。毕业设计长春大学┊┊┊┊┊┊...进入 80 年代以后,研究的重点逐渐转向大词汇量、 非特定人连续语音识别。这一...
基于单片机的语音识别系统研究
基于上述原因,本文通过对孤立 词语音特点的研究,结合单片机等硬件设备,设计了一种基于特定人孤立词的语音识别 系统。本文的研究工作和成果主要有以下几个方面的内容:...
中文语音识别系统研究与探寻
中文语音识别系统研究与探寻_教育学/心理学_人文社科_专业资料 暂无评价|0人阅读|0次下载中文语音识别系统研究与探寻_教育学/心理学_人文社科_专业资料。龙源期刊...
基于MATLAB的特定人语音识别算法设计
基于MATLAB的特定人语音识别算法设计_信息与通信_工程科技_专业资料。本科毕业设计...尽管多年来研究人员一直尝试将“听写机”推广,但是语音识别技术在目前还无法 ...
Linux论文:基于嵌入式的特定人语音识别智能轮椅设计
系统的软件采用隐马尔可夫模型(HMM)的特定语音辨识,可以有 效的解决特定人语音识别,拓展现有电动轮椅的使用人群的范围。 其中,研究内容主要是语音识别部分,Linux...
更多相关标签:
非特定人语音识别 | 特定人语音识别 | 非特定人语音识别芯片 | 特定人语音识别模块 | 特定语音识别 | 特定人语音识别芯片 | 非特定语音识别芯片 | 研究生语音识别就业 |