百度成为世界语音交互技术领导者

2016-02-25 16:25:51

BAT日报网讯:2016年2月23日,《麻省理工科技评论》公布2016年十大突破技术,百度凭借领先的语音交互技术登上榜单。文章指出,百度在世界语音交互技术领域做出了突出贡献——将语音识别和自然语言理解相结合,为世界上最大的互联网市场创造切实可用的语音接口。百度所推出的深度语音识别系统将人们从传统的利用触摸屏输入汉字发出指令中解放出来,实现语音支配搜索。在便利年轻用户的同时,也帮助中老年人以及教育落后地区用户平等享受技术发展带来的红利。

目前,中国约有6.91亿智能手机用户,这个数字还在持续攀升。他们在手机上用国内最大的搜索引擎百度来查找信息时,往往还习惯于使用触摸屏的方式。中国是发展语音接口的理想市场,因为使用微型触摸屏来进行汉字输入十分麻烦。不过,随着百度在语音技术方面的不断进步,语音接口将变得更为实用和有效,人们可以更为便利地与身边的设备进行互动。

百度首席科学家兼斯坦福大学副教授吴恩达(Andrew Ng)表示:“我觉得语音发展到一定阶段,会变得非常可靠,你在用语音的时候甚至根本就不去想它。最好的技术往往是肉眼看不到的,随着语音识别技术变得越来越可靠,我想它将最终消失于幕后。”

语音系统给我们描绘了一幅未来的图景,我们再也无需为学习每个设备的新接口而伤透脑筋。

多少年来,语音接口就一直是技术专家的梦想,更别提那些天马行空的科幻小说家了。然而,在机器学习能力飞速发展的今天,语音控制技术正变得越来越接近现实。

语音识别不再局限于几个预设的命令,无论是在喧嚣的北京街头,还是在吵闹的房间里,你都可以应用自如。语音虚拟助理,如苹果的Siri、微软的Cortana或Google Now,纷纷与智能手机绑定,而像亚马逊Alexa等最新的语音助理,更是提供了通过语音查询信息、编辑歌单、创建购物列表等功能。虽然这些系统往往并非完美,经常以搞笑的方式误听或者误解语音指令。但是,这些系统也在不断地改进,让我们可以初步看到科技未来是什么样——人们再也不必每购买一个设备就要新学习一个界面的操作方法了。

去年11月,百度语音识别技术取得了里程碑式的进展,其位于硅谷的实验室研发出了一个全新的强大语音识别引擎——深度语音识别系统。这一引擎构建了庞大的,或者说“深度的”神经网络,能将声音与单个字或短语关联起来。百度为该引擎引入了数以百万计的转录语音,因此深度语音识别系统在识别口语方面有着惊人的准确性。有时它在识别汉语语音片段方面,要比人为识别更加准确。

这个深度语音识别系统的科研团队里很少有人会说汉语普通话或粤语。它是一个通用的语音引擎。

百度在深度语音识别系统上所取得的进步是惊人的,因为相较其他语言,汉语的语音系统更为复杂,甚至通过声调便可改变一句话的意思。而更令人敬佩的是,研发该系统的百度加州实验室中几乎没有几个科研人员会说汉语普通话、粤语或者其他中国地区方言。因此,从本质上说,该引擎是一个通用的语音识别系统,如果输入足够的英语语料,那么它也可以做到识别英文。

目前,百度搜索引擎所听到的大部分语音指令都是简单的问询——比如,“明天天气怎么样”或者“污染程度如何”。对于这类问询,百度搜索引擎准确度极高。然而如今,用户所询问的问题越来越复杂,为迎接这一挑战,百度于去年推出了自己的语音助手——“度秘”。作为手机(百度)APP的主要功能之一,“度秘”可以帮助用户查询电影上映时间,或预订餐厅位置。

当下,百度面临的一个巨大挑战就是教会其AI系统准确地理解更为复杂的口语指令,并做出智能回复。百度希望“度秘”最终能实现有意义的多回合对话,并且能在对话中纳入不断变化的信息。为了实现这一目标,百度北京总部的一个科研团队正在积极地改善“度秘”的用户问询理解系统,这需要运用百度在其语音识别中使用的神经网络技术,此外还要开展诸多重要工作。与此同时,百度还组建了另一组团队来分析“度秘”接收到的问询,并改正错误,以此不断优化系统。

收藏 举报

延伸 · 阅读