跳到主要内容

感谢您访问nature.com。您使用的是对CSS支持有限的浏览器版本。为了获得最好的体验,我们建议您使用最新的浏览器(或关闭Internet Explorer的兼容性模式)。同时,为了确保持续的支持,我们将在没有样式和JavaScript的情况下显示站点。

  • 广告的功能广告客户保留对本文章内容的全部责任

人工智能智能语音技术蓝图

语音识别技术在我们的日常生活中变得越来越重要,总部位于中国合肥的科大讯飞自1999年成立以来,一直致力于研究使用这种智能技术的新方法。

但是,随着语音识别开始应对新的需求——比如从嘈杂环境中复杂的重叠语音到文本的转换,以及物联网时代的人机交互——有一些技术障碍需要迅速克服。

近年来,这家屡获殊荣的公司已经将语音识别的应用从语音输入和智能呼叫中心等简单场景,转变为更复杂的用途,比如在有多人说话或多种语言的情况下检测和转录语音。

科大讯飞的刘聪向孩子们介绍公司的一些技术。信贷:iFLYTEK

复杂语音场景

语音识别需要更好地应对复杂的场景,比如嘈杂的环境,或者当多个说话者相互说话时。

“我们试图解决的是长期存在的‘鸡尾酒会’问题。现有的语音识别技术很难做到这一点,”科大讯飞研究院执行院长刘聪表示。

为了解决复杂语音场景的问题,Liu和他的团队开发了一种新的语音识别框架,该框架包含两种算法,空间和说话人感知迭代掩码估计(SSA-IME)和空间和说话人感知声学模型(SSA-AM)。SSA-IME结合了传统的信号处理和基于深度学习的方法来识别多个说话人。然后,SSA-AM集成由SSA-IME提取的数据来识别每个说话人的声音。此外,估计的文本可以为SSA-IME提供有用的信息,以提取更健壮的空间和说话人感知特征。该框架可以迭代地减少背景噪声和对说话人声音的干扰,从而实现更准确的语音识别。

刘的团队在2020年赢得了第六届CHiME语音分离与识别挑战赛(CHiME-6),准确率为70%,但他们的目标是将准确率提高到95%。

他说:“当我们实现这一目标的那一天,我们就可以说任务完成了。”“但这还需要三到五年的时间。”

多语言语音识别

语音识别系统的准确性依赖于大量的标记数据。对于汉语和英语等广泛使用的语言来说,这样的数据来源很丰富,但对于其他语言来说,问题就更难了。然而,随着全球化的发展,为所谓的低资源语言建立准确的语音识别系统迫在眉睫。

为了实现这一目标,Liu和他的团队开发了一种名为“统一空间表示半监督自动语音识别”(USRS-ASR)的框架,该框架允许来自不太常用语言的未标记数据被广泛使用。

Liu的团队使用该框架创建了具有强大声学建模能力的自动语音识别(ASR)系统基线,并于2021年赢得了由美国国家标准与技术研究所组织的大型国际低资源ASR竞赛OpenASR挑战赛,在15种语言的22个类别中获得第一名。

进入新的领域,刘和他的团队现在已经建立了一个基于多模态信息的人机交互的新范式。例如,通过深入理解驾驶员的意图——借助视觉感知技术和多模态交互——人工智能可以在嘈杂的环境中专注于目标人的声音。

科大讯飞在许多产品的设计中都采用了其尖端的语音技术。这些产品包括:配备8通道麦克风阵列的智能语音记录仪;智能笔记本“AI Note”,专为会议录音和音频文本转录而设计;以及可识别英语、普通话和25种中国方言的输入工具,无需在它们之间切换。

搜索

快速链接

Baidu
map