2020年度北京市科学技术奖揭晓 远场声学信息人机交互关键技术荣获二等奖

2021-09-27 14:23:57

9月25日,2020年度北京市科学技术奖在中关村论坛上揭晓,声智科技与中国科学院声学研究所,北京建筑大学共同研发的“远场声学信息人机交互关键技术及其应用”项目荣获北京市科学技术进步奖二等奖。

此次获奖是对声智科技在多技能多模态感知AI技术上的肯定。本项目突破了远场复杂声学场景下语音交互的声学感知和语义理解关键技术,融合了基于经典阵列信号处理的模型驱动算法,以及基于深度学习的数据驱动算法,开发出具有自主知识产权的远场声学信息人机交互系统和平台,提高了远场人机交互质量和用户体验,促进了人工智能技术在声学信息交互领域的落地。

面向国家重大战略需求, 率先突破声学信息人机交互多项难关

在国家经济发展以及消费升级的大背景下,智能产品是一个极具爆发力的增长点。尤其

是具备语音交互功能的智能产品让人们摆脱了传统的按键、触屏等手动操控方式。例如在新冠疫情期间声智科技在国际上率先推出了 AI 语音智能电梯,无接触式智能交互避免了人与电梯按键的直接接触,有效减少疫情传播。根据市场调研,远场声学信息交互技术在消费电子、汽车、金融、国防等行业预计过万亿市场。仅消费电子领域的智能音频设备,国内市场规模达 3500 亿左右,市场规模和发展潜力巨大。

几十年来,语音识别技术的研发和应用一直都限定在近场领域,而实际应用中绝大部分是远场情况,因此该技术的应用受到很大的限制。在远场场景下,存在环境噪声、人声、房间混响的干扰,常规的语音处理方法导致信号失真和资源消耗大,使得语音识别技术准确率低和应用困难。突破远场语音交互关键技术,提供一套端+云结构的人机交互系统是声学信息交互技术落地的核心。

针对以上需求及难点,声智以自主知识产权的回声抵消、噪声消除、声源定位、语音

识别、自然语言理解为核心技术,以多租户网络架构为载体,面向所有智能产品,研发出了一套远场声学信息交互系统。该系统具有国际领先的技术水平,具有高度可扩展的架构,可适配各种形状、各种计算能力的智能产品,极大地提高了智能设备的可操控性,提升了用户体验,推动了更多智能产品的落地,也推动了国内声学信息交互产业的发展。

由声智科技远场声音信息关键技术驱动的智能产品案例

在中国面临新冠疫情的考验之时,由声学信息人机交互的关键技术驱动下,研发的一系列智能设备,在科学防疫的应用场景发挥了不可替代的关键作用。声智科技借助在智能音箱、AI客服和AI声纹反欺诈领域的最新AI语音和虚拟数字人技术,将AI外呼、AI短信、AI客服、AI流调等技能应用到智慧防疫实践,不仅大幅降低了防疫机构的工作负荷,而且显著提升了公众的用户体验。

根据声智科技在北京应用AI外呼的反馈统计,大约有90%的公众已经察觉不出AI外呼机器人,并且在AI外呼机器人的帮助下,更加有效科学的进行防疫和生活安排。因为公众的体验提升了,也就更加愿意配合防疫机构的工作,这种良性的闭环智慧防疫,让多技能的防疫系统变得更加安全可靠,成为真正可信任的人工智能技术。

关键技术融合应用,加速交叉创新探索

面向声学信息人机交互产业落地的重大需求,声智研发人员突破了多项远场语音交互的声学感知和语义理解关键技术,构建了阵列信号处理 融合深度学习的先进声学模型和通用语义理解模型,形成了涵盖麦克风阵列、前端声学处理、语音唤醒、语音识别、语义理解、语音合成等技术深度融合的端+云一体化系统,获授权发明专利44项、实用新型专利37项、软件著作权61项,发表论文135篇,参与制定国家标准15项、团体标准15项,产生直接经济效益超1.6亿,大幅提高了系统泛化能力和识别精度,促使我国智能产品万物互联现象级产业直接对标超越欧美标杆企业。

声智研发团队提出了不同场景下低复杂度稳健的时频域自适应滤波算法,解决了高度依赖双端对讲检测、收敛速度慢等难题,实现了单通道和多通道回声抵消系统应用;提出了基于麦克风阵列噪声消除和盲源分离等方法,建立了带噪语音的特征修复技术,去除了人声及背景噪声干扰,大幅提升了系统的识别性能;创新型给出抗混响、抗干扰的低复杂度声源定位方法,有效解决了复杂声学环境特别是电梯、家居、会议室等场景的声源定位问题;提出了加权有限状态转换机解码图唤醒算法,实现了多个声学模型深度融合的在线语音识别引擎,提高了系统在各种环境下语音识别、唤醒的性能;不断研究基于用户对话交互历史的词汇-领域词库映射算法、领域感知的词向量训练算法,提高了领域识别精度,提升了信息交互的流畅度与准确性。

项目成果落地生花用新产品智慧服务1亿+人次

利用远场声学人机交互技术的产品,声智科技在抗击新冠疫情期间作出了突出贡献,获得工信部突出贡献企业表彰,科技防疫产品入选工信部AI助力疫情防控重点物资清单。声智研发的AI虚拟数字人远场红外测温设备,具备人工智能交互和预警能力,既能满足在线检测体温的防疫需求,又能以良好形象缓解被测群体的焦虑情绪,有助于减少人工投入,降低一线安检人员感染风险,提高安检效率。它可广泛应用于闸机、考勤、前台、大厦、机场、车站和港口等公共场所场景。目前该系统2米远场精度为0.2度,是获得抗疫表彰的AI新型产品,支持英语、日语、韩语、西班牙语、法语、意大利语、德语等全球多国语言,有力支持了全球的测温防疫工作。

新华社记者采访声智科技语音防疫产品:远场红外测温系统,智能语音电梯

“无接触式”电梯AI语音控制方案,为疫情下的日常生活提供安全保障。它提供完整的AI语音模组开发板,内置针对电梯封闭场景的优化语音算法,简单连接开发即可与电梯系统形成联动,使用者无需触摸按键,即可语音呼叫、控制电梯。

北京声智科技CGO接受日本富士电视台采访:无接触式语音电梯

另外,北京智慧语音垃圾分类平台是声智科技在智慧城市领域的先行尝试。它融合了AI数字人、人脸识别 、智能语音交互、行为识别、视频监控等AI技术,实现全流程"AI数字人垃圾分类管家"引导与值守,形成长效管理机制,使垃圾分类的管理快速见效、持续有效。目前产品已在北京市房山区、海淀区实际落地应用,提升了居民投递垃圾交互体验,改善了社区整体卫生环境。

北京声智科技CTO接受台湾TVBS媒体采访:智能语音垃圾分类平台

此次获奖是一个崭新的起点,未来,声智科技还将持续探索领域前沿,积累核心技术以及落地应用,助力各行各业创新发展、智能化转型升级,为我国人工智能的发展添砖加瓦。






 

收藏 举报

延伸 · 阅读