当前位置:首页 >> 幼儿读物 >>

手机自然通话语音数据-标注规范V1.4 (1)


实施规范

手机自然通话语音数据
标注规范

数据堂(北京)科技股份公司 二○一五年五月

1/7

实施规范

文档控制
更改记录 日期 2015-06-02 2015-07-15 2015-08-04 2015-08-07 2015-08-07 卜辉 许明

涛 陶景林 卜辉 卜辉 作者 版本号 V1.0 V1.1 V1.2 V1.3 V1.4 使用旧的切割工具 调整语音中包含英文部分的转 写规范 标注信息更新 标注信息更新 更改记录

2/7

实施规范

目录
文档控制 ................................................................................................................................... 2 1 2 3 4 5 6 7 8 9 前言 ................................................................................................................................... 4 数据要求 ........................................................................................................................... 4 数据来源 ........................................................................................................................... 4 标注属性 ........................................................................................................................... 4 数据处理过程 ................................................................................. 错误!未定义书签。 数据约束 ......................................................................................... 错误!未定义书签。 交付格式 ......................................................................................... 错误!未定义书签。 质量保证 ........................................................................................................................... 6 最新疑问 ........................................................................................................................... 6

3/7

实施规范

1 前言
本文档为“手机自然通话项目”的标注规范,阅读人员为录制实施人员。

2 数据要求
最终要标注出 9000 小时的有效语音数据。

3 数据来源
录制好的电话语音数据。

4 标注
4.1 标注要求 对切开的每个语音段,进行标注。做标注的语音段周围尽量留 0.2~0.3 秒静 音段,如本身没有这么长静音的情况不强求。 (V1.3 修改内容) 注:音频为近端说话者的声音。 (近端:装有采集软件的手机麦克风录制的 语音。远端:装有采集软件的手机听筒传出的语音。 ) ? 是否有效 无效标注无效 判断是否为有效或无效语音的原则: 1) 如果一段语音中两个人说话重叠声音大小接近,重叠部分比较多,则标 注为无效语音;如果重叠部分较少,一两个词情况,截取不重叠部分标为有 效。如果重叠另一个人声音很小可忽略。 2) 如果一段语音声音极小,小到几乎听不到,则标注为无效。 3) 如果一段语音中只含有噪声或者静音(视为无声音) ,则标注为无效。 4) 如果只有一个“嗯” 、 “啊” 、 “哇噻” 、 “喂”等,则标注为无效。 5) 一句话有听不清楚的部分,不能判断内容转写不出正确结果的情况下, 则标注为无效。 6)语音段内容为非近端说话人声音的视为无效。 (如果无法判断是否是近端 还是远端可查听标注语音段的前后语音段来判断。 ) 7)以上情况视为无效,其他正常语音均为有效。 噪音标注: [s]: 表示说话人的各种非文本内容的噪声信息,包括唇咂嘴,咳嗽,清 嗓子声,啧啧声,笑声。 ? [n]: 非人发出的声音, 主要是一些偶然出现的噪声, 例如:鼠标操作声音, 敲击键盘的声音等。 ? [t]: 稳定的噪声,主要是录音环境的一些非偶然噪声,例如周围汽车声, 音乐,风声,空调声等。 ? [p]: 非说话人的周围人发出的噪音,包括唇咂嘴,咳嗽,清嗓子声,啧 啧声,笑声等。
4/7

?

实施规范

问:噪音符号什么时候加? 答:对于有效语音段明显的噪音且作为独立的声音段时才加(说话同时的噪 音不用加,不明显的噪声也不用加) 。 ? 例 1:A 说完“今天”后笑了下,继续说“我去吃饭了” ,那么标为“今 天[s]我去吃饭了” 例 2:A 说话时,周围产生了噪音,那么因为噪音不构成独立声音段,所 以不需要标噪音符号。 (注意) ? 例 3:如在整个语音都存在音乐声比较明显,同时开头和结尾存在静音 段情况下, 在开头结尾处加上[t]。 (如果开头和结尾没有静音段, 则不用加[t], 音乐声不明显也可以忽略不加。 )
● 内容标注

数据处理人员根据所听到的音频写出内容,力求使文本内容与音频发音内容 保持一致。一般准则如下: 1). 如果两个人说话重叠声音大小差不多,重叠部分切出去标无效。 例:两个人说话重叠,甲说: “今天的天气好热呀! ”话还没完,乙说: “嗯。 ” “嗯”字正好跟“热”字重叠了,且两个人声音大小差不多。则把“今天的天 气好”切成一句。 “热呀”标成无效。 2). 转写的内容必须和听到的语音完全一致,不能多字、少字、错字。 3). 音频中的阿拉伯数字要写成汉字形式,如“一二三” ,而不是“123” 。 注意区分“一”和“幺” 。 “二”和“两” 4). 音频中有英文发音的应写成相应的汉字或英文。具体分为以下几种 情况: ? 网址中包含的所有的字母均或单词,均为大写。例如:发音内容 为”www.pp.com”, 应转写为“三 W 点 PP 点 COM“ ? 发音中包含的英文单词,转写时全部为小写。 ? 发音中包含的英文字母,转写时全部为大写。 ? 对于一些专有名词,或者一些英文缩写全部大写,例如: WTO、ERP 等。 5). 语气词: 音频中说话人清楚地讲出的语气词并且紧接着正常语音, 如 “呃 啊 嗯 哦 唉 呐”等后接”吃了“,要按照正确发音进行转写。例:“嗯 吃 了”。语气词除了“了 不 ”没有口字旁,其他基本上都有口字旁。 6). 标注内容的完整性要与实际发音一致,不得删减。 ? 如发音为:我是北 北京人; “北”字有重复现象,标注的时候要写成:我是 北北京人。 7). 发现听的比较清楚,但是语义不确定,但是发音可以确定,比如普 通人名等,可以选择同音字代替,但需要保证标注读音正确。
● 时间轴标注 尽量把有效语音的前后静音或噪音时间标长些。 标注方法: 1)原始音频
5/7

实施规范

2)标注有效语音

● 带静音或噪音的语音内容区分

如图所示在一句语音内容中红色箭头间部分为静音,静音部分超过 1 秒以上 按照两个语音段多标注, 不能标注两个的情况按照内容清晰的语音段做优先(指 标一个) 。 (V1.4 修改内容)

5 质量保证
? 按句统计标注准确率要求达到 95%以上。请严格按照此标准进行标注。 按选取的“语音段”为单位,某个语音段出现有效性错误、内容错误或噪音 错误,则该语音段就认为错误。 例:有效性错误=出现无效的内容标注为有效。 内容错误=音频与转写的文本内容不符合。 (错一个字视为文本与音频不 符) 噪音错误=音频噪音没有标出或影响语音内容,表位有效的视为不合格。 准确率=错误的语音段数量 / 总的语音段数量
6/7

?

实施规范

6 最新疑问

7/7


相关文章:
手机自然通话语音数据-标注规范V1.4 (1)
6 3/7 实施规范 1 前言本文档为“手机自然通话项目”的标注规范,阅读人员为录制实施人员。 2 数据要求最终要标注出 9000 小时的有效语音数据。 3 数据来源录制...
自然对话标注规范
自然对话标注规范 看完之后找我要语音,价格 150 元一 个小时 1、 标注之前需要进行的工作 1) 确定你所拿到的语音是否为电话录音 (而不是两个人面对面聊天 ...
自然对话语音标注规范
自然对话语音标注规范_信息与通信_工程科技_专业资料...对一个没标过的录音文件进行标注 1) 双击标注软件...所以为了避免数据丢失或工具异常,标注中间要勤 保存,...
客服录音数据标注规范(完整版)
客服录音数据标注规范(完整版)_计算机软件及应用_IT/计算机_专业资料。客服录音数据...1. 当前语音是否包含有效语音无效语音(即不包含有效语音)的类型: ? ? ? ? ...
语音标注规范_20150706
的文本标注内容需 要与语音起止时间段内的数据完全...四、文本转写规范 2 1.文本转写结果以汉字表示,...[n] 非人类产生的噪声,如:背景音乐、手机铃声、...
中国移动VOLTE语音测试规范v1
中国移动VOLTE语音测试规范v1_互联网_IT/计算机_...模 拟普通手机用户进行语音数据业务的拨打测试,...每次通话时长 180 秒,呼叫间隔 30 秒;如出现未...
中文标注任务规范
10 手机号码:18119608723 QQ:770719116 学历:本科 ...:大专 职业:学生 城市:合肥 中文标注任务规范 1. ...好数据指发音人是在与系统对话,且语音波形完整、...
VOLTE试题(1)
(A) A.对 B.错 17.在 ESRVCC 切换中,如果手机...语音和 LTE 数据业务能够并行 9.SRVCC 可以实现 ...继续承接通话的技术;分析中需要关注 以下要点: 1. ...
语音地址数据配置规范
步骤 1 配置 配置OLT针对 针对ONU的语音业务数据 ...由于电话号码由 MGC 指定,故在 MG 上一般不配置...语音数据标注规范V2.1.5... 暂无评价 6页 免费...
VoLTE外场测试规范 v1.1.0
VoLTE外场测试规范 v1.1.0_信息与通信_工程科技_...用户数据报协议 用户设备 上行链路 LTE语音方案 5 ...采 用IxChariot客户端进行12.2kbps的标清语音通话。...
更多相关标签:
语音通话标注 | 微信语音通话 | 微信怎么语音通话 | 未开通语音通话功能 | 高清语音通话 | 微信语音通话费流量吗 | 语音标注平台 | 4g微信语音通话一小时 |