网络消费网 >  消费 > > 正文
夺CHiME三连冠 以技术领跑发展,科大讯飞厚积薄发的应对之道
时间:2020-05-09 16:11:12

5月4日,国际多通道语音分离和识别大赛(CHiME)比赛最新一届CHiME-6成绩在线揭晓。科大讯飞联合中科大语音及语言信息处理国家工程实验室(USTC-NELSLIP)在给定说话人边界的多通道语音识别两个参赛任务上夺冠,其中语音识别错误率更是从CHiME-5的46.1%降至30.5%。

科大讯飞夺得CHiME-6冠军 (Track1:Ranking B)

深耕语音识别技术突破,错误率从46.1%降至30.5%

据了解,本次CHiME-6使用的语音素材相包括多人在厨房边做饭边聊天、在起居室边用餐边聊天、在客厅聊天,聊天的声音中包括远场、混响、噪音、语音叠加等各种复杂因素,因而技术难度极大。

2018年的CHiME-5比赛,科大讯飞联合中科大语音及语言信息处理国家工程实验室杜俊教授团队(USTC-NELSLIP)斩获了四个比赛项目的全部冠军。然而,当年最优的参赛系统语音识别错误率仍高达46.1%,距离实用仍有较大差距,所以,今年USTC-NELSLIP联合团队重点聚焦于Track1,希望进一步探索复杂场景语音识别实用化的可能性。通过团队的技术攻关,将该任务上的语音识别错误率从原来的46.1%降至30.5%,大幅刷新该项赛事历史最好成绩,进一步拉大领先优势,最终在Track1的两个子任务(Track1-Ranking A,需使用官方语言模型;Track1-Ranking B,不限制语言模型)上均斩获冠军。

以技术领跑发展,科大讯飞厚积薄发的应对之道

积跬步,得以至千里。基于多年来在真实场景中的技术积累,科大讯飞仅用一年半就实现了CHiME-6成绩的大幅跃升。

据了解,针对比赛任务,USTC-NELSLIP联合团队结合技术与经验累积,进行了一系列技术创新。在前端信号处理方面,联合团队提出了基于空间-说话人同步感知的迭代掩码估计算法(Spatial-and-Speaker-Aware Iterative Mask Estimation, SSA-IME),该算法结合传统信号处理和深度学习的优点,利用空时多维信息进行建模,迭代的从多个说话人场景中精确捕捉目标说话人的信息。该算法不仅有效降低环境干扰噪声,而且可以有效消除干扰说话人的语音,从而大幅降低语音识别的处理难度。

在后端声学模型上,联合团队提出了基于空间-说话人同步感知的声学模型(Spatial-and-Speaker-Aware Acoustic Model, SSA-AM),通过在声学模型输入端拼接多维度空间信息和不同说话人信息,使其能自适应区分目标说话人和干扰说话人。因此,声学模型不仅依赖前端算法的处理结果,也能够自适应完成对目标说话人语音特征的提取,大幅提升多人对话场景下语音识别声学模型的容错率和鲁棒性。

回顾2018年组委会发布CHiME-5数据集,官方的基线系统错误率高达73.3%,USTC-NELSLIP联合团队通过不断进行技术创新,逐步刷新最好成绩。这充分说明,在远场、混响、噪音、声音叠加、语言风格随意等诸多不确定性的复杂场景下,USTC-NELSLIP联合团队的技术积累一直处于世界领先水平。

技术发展,是实现应用落地的基础。目前,科大讯飞正在大力拓展多语种语音识别方面的技术研究,通过长期的智能语音技术积累及研发攻关,有望为全球更多企业及消费者提供优质的多语种智能语音解决方案。

关键词: 科大讯飞

版权声明:
    凡注明来网络消费网的作品,版权均属网络消费网所有,未经授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明"来源:网络消费网"。违反上述声明者,本网将追究其相关法律责任。
    除来源署名为网络消费网稿件外,其他所转载内容之原创性、真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考并自行核实。
热文

网站首页 |网站简介 | 关于我们 | 广告业务 | 投稿信箱
 

Copyright © 2000-2020 www.sosol.com.cn All Rights Reserved.
 

中国网络消费网 版权所有 未经书面授权 不得复制或建立镜像
 

联系邮箱:920 891 263@qq.com

备案号:京ICP备2022016840号-15

营业执照公示信息