揭秘阿里巴巴智能语音交互技术三个层次技术

2016-06-06 17:09:51

当一个产品经理在规划产品中的语音功能时,在大多数情况下,他需要的不仅仅是语音识别,还需要其背后的智能交互——理解问题、回答问题、在需要的时候发问、能根据用户回答决策等。

阿里云智能语音交互,就是这样的一款产品。它基于语音和自然语言技术构建的在线服务,为开发者在产品中提供“能听、会说、懂你”式的智能人机交互体验。

阿里云智能语音交互

阿里云智能语音交互背后实际上包含三个层次技术:语音技术、智能化技术和大数据技术。

语音技术:

语音识别(ASR)——把人讲的话转成文字

语音合成(TTS)——把文字说出来

声纹识别和认证((Speaker Identification and Verification)——从众多候选人中确认发音人的身份或者认证发音人是否为某个特定人。在应用中,可以通过这些技术唤醒应用、解锁密码等。

情感识别——通过用户讲话的语气语调、用词等线索,判断用户是否有不满或处于生气激动状态

智能化技术:

自然语言理解(NLU)了解用户的意图

多轮对话管理(DM)

通过提问来进一步明确用户意图

跨领域对话

自然语言生成(NLG)——把查询到的信息反馈给用户

场景感知(contextual awareness)——根据前面对话内容、当前地理位置、收到的邮件短信中的内容来更好了解用户意图

个性化——通过用户的过往行为或选择,做模型的自适应,为用户提供更有针对性的服务

大数据技术

各种垂直领域的数据服务(天气、航班、餐馆、…….)

垂直搜索或通用搜索(OneSearch、神马搜索、钱包搜索等等)

知识问答(基于知识库、知识图谱的问答)

开放式聊天

大规模机器学习模型的训练

深度学习算法的GPU多机多卡训练

相比其他同类产品,阿里云语音交互拥有以下优势:

国际一流的团队,并且和其他部门紧密结合

阿里集团海量用户的考验

强大的云运算能力

基于超大型的数据集,构建并快速训练超大型的模型

深度学习 GPU多机多卡middleware

多机多卡训练在GPU集群中的硬件实现

国际顶尖深度学习技术-LC-BLSTM声学模型在工业界的首次应用

阿里云语音交互的应用场景非常广泛。 

1.在有很多选择的场景中快速直达:在手机上众多的APP中直接用语音进入一个应用并完成相关操作。例如,对着手机说“用支付宝给某某转帐100元”,就可以直接打开支付宝钱包,并把转帐的对象和金额填好,用户只要确认,就可以完成转帐。

2. 屏幕很小或手眼在忙:

用遥控器选择电视盒子中的服务。

开车在路上;

通过智能音箱、智能手表或其他智能设备访问互联网服务

3.让沉睡的语音数据发挥出巨大的价值:在互联网上、call center中沉睡着很多录音数据,这些数据很难直接利用和分析,一旦转成文字,就可以利用各种自然语言处理技术来发掘价值了

而在实际应用中,目前已有很多产品在使用阿里云语音交互。比如说,天猫魔盒,用户动动嘴,就可以直接跳转到自己的专属场景中,点歌、看视频、买东西,动嘴就可以搞定;在阿里集团的客户中,语音交互技术应用的“阿里小蜜”,也和小二一起为用户提供顺畅的售前、售中、售后的购物体验;在支付宝智能助理,针对用户“支付宝功能太复杂,找不到想要的功能”的痛点,也引入智能语音技术让用户“所说即所得”,通过语音直达应用。

智能语音交互体验

收藏 举报

延伸 · 阅读