智由生活随声动,声智低功耗远场语音技术助力坚果AI投影仪

2019-06-01 14:51:15

随着人工智能技术的发展,支持远场语音交互的智能家居产品越来越受到大众青睐。近日,智能投影领先品牌坚果发布了全球首款支持远场语音交互的人工智能4K投影仪——J7S智能投影仪,这款投影仪采用阿里人工智能实验室与声智科技联合为其开发的专为智能投影定制的远场智能语音交互技术,让传统的按键交互变成免遥控器,一句话即可控制的自然语音交互。

低功耗高集成算法,极速唤醒识别体验

作为业界首款支持远场语音识别的智能投影仪,坚果J7S智能投影仪在坚果J7旗舰投影仪的基础上进行了全新升级,内置Mstar 6A838四核A53架构旗舰级智能电视芯片,支持4K高清片源解码播放。在原有功能的基础上增加了AI远场语音、MEMC运动补偿等功能,新增儿童观影模式,并在画质色彩、散热、系统等诸多方面进行优化升级,带给用户更智能更贴心的大屏使用体验。

为打造4K高清观影效果,坚果J7S智能投影仪在播放高清视频过程中将CPU的运行资源绝大部分都用于进行视频处理。因此,这就要求声学处理算法需要在CPU占用少、算力低等诸多高要求的情况下,为用户提供流畅的智能交互体验。

根据CPU 算力要求,声智科技重新优化算法,训练模型,提升唤醒率和唤醒速度,不断降低CPU占用率,最终推出了的新一代SoundAI Azero低功耗远场语音唤醒识别算法,该算法计算量小且内存占用量少,成功应对更复杂的应用场景并提高准确度,保证CPU的顺畅运行,为用户提供高清视频播放的前提下打造极速的唤醒和识别速度体验。搭载声智科技SoundAI Azero系统的坚果J7S已达到将机器应答时间控制在400~500毫秒的领先水平,从唤醒到内容的全链条响应速度已实现全球领先的1.4s内,确保了更人性化的智能交互速度。

独家优化降噪唤醒技术,流畅人机交互体验

坚果J7S智能投影仪内置声智科技远场智能交互系统SoundAI Azero,采用4麦环形麦克风阵列设计,以及针对投影仪应用场景优化的远场语音识别、噪声抑制、语音唤醒等核心算法,首次有效解决了智能投影仪应用场景中信号失真、回声消除等问题,打造无障碍人机交互体验。

投影仪因其特殊的结构设计,在远场声学处理过程中需要应对密封性不足、自噪声干扰大等问题,以提高唤醒和识别的准确率。为实现音视频播放时的立体声效果,坚果J7S智能投影仪内置2枚5W的高品质对称式扬声器,搭配高保真四向发声环绕技术,但也对语音信号的拾取造成了极大干扰。同时,为了具有更好的散热性能,坚果J7S采用了涡轮增压散热设计,风扇运行时的噪声会干扰到交互时的识别率和唤醒率。

针对智能投影仪真实应用环境中的特殊噪声,声智科技远场智能交互系统SoundAI Azero推出了一系列优化的语音唤醒核心算法和识别算法,包括声源测向、波束形成、噪声抑制、抗强噪声唤醒(AKS)和回声抵消等,在保护主方向语音不失真的前提下,抑制环境中的语音等非稳态噪声以及空调等其他平稳噪声的干扰,增强语音清晰度,赋予坚果J7S以更灵敏的人机交互能力。

场景化语音识别技术,赋能智能语义理解

智能投影仪在真实应用场景中,不可避免地要面对用户指令中的网络热词,这就对语音识别和语义理解能力提出了更高要求,要求设备可以快速的识别特定词并作出准确解读。

声智科技SoundAI Azero系统为坚果J7S智能投影仪提供的远场语音识别解决方案,采用贝叶斯学习框架,基于神经网络,提取用户语音数据特征,进行声学和语言建模,动态生成最优识别结果,让用户可享受便捷的语音识别服务。

同时,智能投影仪的识别更偏向于影音娱乐领域,为此,声智科技运用了场景化任务识别数据系统,强化场景特点的训练与学习,结合用户习惯,让对用户语言的识别与解读更合情理。声智科技ASR算法的识别效果已达到行业领先水平,可支持各类媒体类热词,将误识别率控制在极低水平内,譬如不会将 “黄金瞳”误识别为 “黄巾同”。

在高精度的语音识别基础之上,如何对转化为文本的用户指令信息进行高效准确的解码,是自然语言处理技术的应用价值所在。声智科技远场智能交互系统SoundAI Azero的自然语言处理解决方案,基于双向循环神经网络和条件随机场模型,提取实体信息,对文本进行分词处理,通过规则匹配生成有效信息逻辑排列,运用树形结构模型,联系上下文逻辑,推理出用户的意图,实现“听你所言,知你所想”的完美体验。

随着智能交互技术在越来越多的硬件产品中落地,万物互联的生态圈将得到进一步丰富,越来越多的智能交互场景落地。声智科技将持续专注声学语音技术和场景语义技术的创新与应用,携手合作伙伴,共建智慧未来。

关于声智科技

声智科技是全球领先的远场智能交互系统提供商之一,专注于声学语音技术和场景语义技术,致力于通过不断引领真实环境下的人机交互体验,实现“用声音让生活更智能”的使命,达成未来“更自由的人机互联”的愿景。声智科技主要提供SoundAI Azero操作系统和开放平台服务,以及深度结合应用场景的人工智能技术和产品解决方案,并拥有声学矢量传感、声学阵列芯片、声学结构设计、远场声学处理(回声抵消、噪声抑制、声源定位、混响消除、波束形成等)、远场语音唤醒、远场声纹识别、远场语音识别、远场双工通话、场景语义理解、自然语音合成、超远场声学监控、局部场语音识别、分布场语音交互、深度学习与小样本学习、智能搜索与个性化推荐等自主核心技术。

收藏 举报

延伸 · 阅读