网络语言项目中的语音技术
上选择两年内参与评测的系统,展示其优良性能。除此之外,作者设法选择那些和ELLS系统结合时可利用的引擎。总是作者设法选择这样的系统和设置,即代表语言社团现有工作,与目前系统发展相关的那些。
3.2 不同的语音识别系统的比较(针对美国)
即使是纯粹的WER值也无法提供尽可能多的信息,对同一个语音识别任务中不同的语音引擎进行比较,仍然是适合的。这对NISR评测长期以来是适用的,NISR从19世纪80年代开始一直被使用,进行系统之间的相互比较,报告最近几年内的进步。NISR这些评测,由DARPA发起(国防部高级研究项目局),证明了语音技术15年之内巨大的进步,从使用近距离讲话的扩音器、在安静的环境中记录下来的、依赖特定讲话者的数字识别,到在多变的噪音条件下、运用不同的语言以各种讲话风格进行的电视广播新闻的语音识别(见计划)。NIST实施的最新评测是人们在电话中交谈的配电盘(SWB)评测。这样的语音识别应该很困难,因为十足的会话式演讲风格,产生了自然的语音效果,如被填补的停顿,犹豫,重复和交叉谈话,从而使识别变得困难。另外由于受带宽限制,电话记录质量差。2001年配电盘评测的最好系统按顺序依次是,CU-HTK,AT&T, BBN, IBM, SRI,词错误率从19.8% 变化到 27%。这意味着,即使在最好的情况下,每100个词中 有20个识别错误。表1比较了当前最好的语音识别器对一些重要的NIST评测的结果和规范。我们挑出配电盘(Switchboard)和广播新闻评测方法,因为这些任务和我们能实现的ELLS任务可能很接近。这个语音引擎表很不完全,但确实包括了由NIST规则评测后最好的最突出的语音引擎。
表0 不同语音识别系统的比较(#表示评定等级)
SystemNAB-C1 1994BN 1996BN 1997SWB 1997SWB 2001AT&T#7 13.0%---#2 25.6%
455RTBBN Byblos#3 11.9%#3 30.2%
(45k vocab)#4 20.3#2 35.5#3 26.6%
234RTCU Abbot#6 12.4%#5 34.7%
(65k vocab), 60 RT#9 27.1-CU HTK#1 10.5%#2 27.5%
(65k vocab) 340RT#1 16.2#3 39.2#1 24.6%
298RTCMU SPHINX#10 13.7%-#8 23.8--Dragon #8 13.2%-#6 23.1#4 39.9-IBM#2 11.1%#4 32.2%
(65k vocab)#2 17.9-#4 27.8%
540RTLIMSI#4 12.1%#1 27.1%
(65k vocab) 250-300RT#3 18.3-MIT#11 19.0%----Philips /Aachen#9 13.4%-#7 23.3--SRI#5 12.2%-#4 20.3#6 42.5#5 29%
402RTCSLU (OGI)#10 38.8-CMU JRTk 9.0% 200RT
13.0% 2.2RT
15.0% 1.3RT--#1 35.1
3.3 不同语音识别系统的比较(针对中国)
语音技术已经变成ELLS中人机接口的关键技术,研究水平也从实验室逐步走向实用。人们可以使用语音技术得到人机口语对话。许多系统例如机场订票自动问答系统,旅行自动问询系统,餐馆定餐自动咨询系
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说教育文库网络语言项目中的语音技术(7)在线全文阅读。
相关推荐: