[1]沈映泉,刘勇进,蔡 骏,等.利用人类计算技术的语音语料库标注方法及其实现[J].智能系统学报,2009,4(3):270-277.
SHEN Ying-quan,LIU Yong-jin,CAI Jun,et al.Method and implementation of transcribing speech corpora based on humancomputation[J].CAAI Transactions on Intelligent Systems,2009,4(3):270-277.
点击复制
《智能系统学报》[ISSN 1673-4785/CN 23-1538/TP] 卷:
4
期数:
2009年第3期
页码:
270-277
栏目:
学术论文—自然语言处理与理解
出版日期:
2009-06-25
- Title:
-
Method and implementation of transcribing speech corpora based on humancomputation
- 文章编号:
-
1673-4785(2009)03-0270-08
- 作者:
-
沈映泉1,刘勇进1,蔡 骏1,2,史晓东1
-
1.厦门大学 智能科学与技术系,福建 厦门 361005;
2.Groupe Parole, LORIACNRS & INRIA, BP 239, 54600 VandoeuvrelesNancy, France
- Author(s):
-
SHEN Ying-quan1, LIU Yong-jin1, CAI Jun1,2, SHI Xiao-dong1
-
1.Department of Cognitive Science, Xiamen University, Xiamen 361005,China;
2.Groupe Parole, LORIACNRS & INRIA, BP 239, 54600 VandoeuvrelesNancy, France
-
- 关键词:
-
语音语料库标注; 人类计算; 分布式知识获取; 基于Web的语言学习
- Keywords:
-
speech corpora transcription; humancomputation; distributed knowledge acquisition; Webbased language learning
- 分类号:
-
TP39
- 文献标志码:
-
A
- 摘要:
-
提出一种基于人类计算的语音语料库标注方法.该标注方法的主要思路是通过一个基于Web的语言学习系统来收集由大量学习者(用户)输入的词汇标注和音标标注,并从中选择出现概率最大的用户输入作为语料的正确标注.为了保证通过这种人类计算方法获得的标注文本的质量,使用了一些计算机辅助机制来校验收集到的标注的可靠性.采用这种方法实现语音语料库标注的主要优点在于将语料库标注和语言学习相结合,无需专门投入大量的人力来进行枯燥乏味的语料库标注工作,从而节省了语料库标注的成本.对这种基于人类计算的语音语料库标注技术进行了探讨,说明了用于收集用户输入的语言学习系统的设计以及标注生成系统的设计.系统的应用表明,该标注方法能够有效、低成本地生成语音语料库的词汇标注和音标标注.
- Abstract:
-
A new method is proposed for generating transcriptions of speech corpora based on humancomputation. The method depends on collection of orthographic transcriptions and phonetic transcriptions from a large number of users by using a Webbased language learning system and choosing commonlyused labels as the transcriptions of the speech corpora. In order to guarantee the quality of transcriptions, some computeraided mechanisms are also used to verify the collected transcriptions. This method combines speech data transcribing with language learning and cuts down the cost of transcribing corpora effectively. The technology of humancomputationbased speech corpora transcribing and the detailed design of language learning system have been discussed, transcriptions generation system has also been expatiated in this article. The application of system shows that this method is an effective and economical way to generate orthographic and phonetic transcriptions.
备注/Memo
收稿日期:2008-07-02.
基金项目:国家留学基金资助项目(2006104705);福建省自然科学基金资助项目(2006J0043);厦门大学“985工程”二期信息创新平台资助项目(0000X07204).
通信作者:蔡 骏.E-mail:Jun.Cai@ulb.ac.be, Jun.Cai@loria.fr.
作者简介:沈映泉,男,1984年生,硕士研究生,主要研究方向为语音情感识别、自然语言处理.
刘勇进,男,1984年生,硕士研究生,主要研究方向为自然语言处理.
?蔡 骏,男,1966年出生,副教授,博士.布鲁塞尔自由大学(ULB)图像、信号和远程通信实验室研究员.IEEE Computer Society、IEEE Signal Processing Society会员,International Speech Communication Association会员.主要研究方向为自动话语识别、计算机语音处理,在自动话语识别的实时计算和人类语音的Articulatory Modeling等方面进行了深入的研究.参加与主持科研项目20项,发表学术论文30余篇.
更新日期/Last Update:
2009-08-31