-
题名语音文本对齐技术构建蒙古语语音识别语料库研究
- 1
-
-
作者
甄兆博
张晖
-
机构
蒙古文智能信息处理技术国家地方联合工程研究中心
内蒙古自治区蒙古文信息处理技术重点实验室
内蒙古大学计算机学院
-
出处
《中央民族大学学报(自然科学版)》
2024年第1期12-19,共8页
-
文摘
目前,适用于蒙古语的语音识别数据在规模上与英语、汉语的训练数据存在着巨大的差距。因此需要一种低成本的数据集构建方法,以补全数据来源上的短板。在生活交往中已生成了海量的蒙古语数据资源,其中很多都是语音文本粗略对照的形式,本研究采用从这样的语料中提炼可供训练用的语料的技术路线,选择电视剧配音剧本和对应成片作为样例,将提炼工作看作是一个语音文本对齐问题。通过一系列自动化处理将剧本和对应的音频转换为适用于语音文本对齐处理的数据形式,利用迭代的对齐方法得到了语音文本对齐结果,利用这些结果生成了适用于蒙古语语音识别的逐句对齐的“语音—文本对”数据。通过对生成的数据进行抽样检查发现,生成的数据有较好的质量,与人工标注基本一致,节省了数据生产的成本。
-
关键词
语音识别
蒙古语
生语料
语音文本对齐
-
Keywords
speech recognition
Mongolian
raw corpus
speech-text alignment
-
分类号
TN391
[电子电信—物理电子学]
-