声智科技CTO冯大航:AI章鱼系统架构在智慧城市的进展与应用

2019-09-22 14:10:37

9月21日,中国人工智能大会2019(Chinese Congress on Artificial Intelligence 2019,简称“CCAI 2019”)于青岛胶州方圆体育中心盛大开幕,本届大会以“智变融合”为主题,由中国人工智能学会主办,是我国最早发起举办的人工智能大会,声智科技联合创始人兼CTO冯大航受邀出席并发表演讲,此次大会有超过100位国际人工智能领域顶尖人才,800余位国内外人工智能领域专家教授、头部企业高管及行业代表,2500余位专业观众共同参会。

大会期间,声智科技联合创始人兼CTO冯大航以《智慧城市中声学与AI融合技术的进展与应用》为主题发表了演讲。冯大航表示,中国的智慧城市处在一个快速发展当中,以声智科技为代表的人工智能企业将声学与人工智能融合应用在智慧城市里面的方方面面,例如在智能交通领域进行监测,安防提出的需求是希望给摄像头“装上耳朵”,可以实现对异常声和某些关键词的监测。又比如应用在智能家居里的智能空调、电视等等,以及应用在政务系统中可以极大的方便市民迅速获得需要的服务。这些案例声智科技都已经在参与,并且已经有了一些项目完成落地。

基于这些项目经验,我们将观察到的现象总结为两大趋势:

一是在技术上,声学与人工智能正在不断地融合——通过深度学习进行信号处理和语音识别等,应用在智能安防和智慧交通等诸多领域;二是在新的场景下,新的系统架构正在形成——章鱼架构,且具有更强大的计算和控制能力,基于“章鱼架构”的模式声学与人工智能融合的案例已经应用在智慧城市的方方面面。

交通、安防、政务、教育……城市生活包含着多个场景,也充满着各式各样的设备。以AI为核心的智能化如若要实现在城市的广泛应用,自然需要完成在不同设备间的真正落地。为适应这一新需求,更好的服务客户,声智科技推出了SoundAI Azero 智能操作系统。其具有更加智能的终端控制能力、更强大的计算处理能力、更快速的网络传输能力以及更个性化的定制能力。

我们认为未来会出现更多的“章鱼”系统,并且进化的更加智能,同时越来越多的“章鱼”系统出现后会产生“智慧的规模效应”,产生一个更大提新型系统。

据悉,声智科技成立于2016年5月,是全球领先的远场智能交互系统提供商之一,专注于声学语音技术和语言理解技术,致力于通过不断引领真实环境下的人机交互体验,实现“让机器更智能”的使命,达成“用科技改善生活”的愿景。声智科技核心团队来自中科院声学所,聚集了全球著名高校的毕业生和著名企业的商业精英,以及中关村、福布斯、胡润以及IEEE、ACM、ASA、AES、中国人工智能学会、中国计算机学会、中国声学学会等众多高端人才。

以下为冯大航演讲实录:

大家好,我是声智科技的联合创始人兼CTO冯大航,我们公司主要专注于声学和人工智能的融合,今天我主要希望分享一下我们公司这几年在智慧城市中的进展与思考。

首先看一些数据,根据2013-2017年中国智慧城市数量与投资规模的曲线图可以发现,无论是试点的数量还是投资的规模都是一个逐年上涨的过程,可以说中国的智慧城市是在一个快速发展当中,我们公司主要做声学与人工智能的融合应用。声学在智慧城市里面也有很多重要的应用,例如在智能交通领域进行监测,安防提出的需求是希望给摄像头“装上耳朵”,可以实现对异常声和某些关键词的监测。又比如应用在智能家居里的智能空调、电视等等,以及应用在政务系统中可以极大的方便市民迅速获得需要的服务。这些案例我们都已经在参与,并且已经有了一些项目完成落地。

基于这些项目经验,我将观察到的现象总结为两大趋势:

一是在技术上,声学与人工智能正在不断地融合。二是在新的场景下,新的系统架构正在形成。接下来,我将主要就这两条脉络进行阐述。

我们公司产生之初就致力于声学与AI的融合,2014年以前声学和语音信号处理以及语音处理的交叉不是特别多,都在独立向前发展,特别是深度学习被用于语音识别以来,语音识别率得到了很快的提升。

上图展示了语音识别出现以来的错误率曲线,可以看到,最关键的一点出现在2017年微软推出一套语音识别系统,其语音识别错误率达到了5.1%,首次低于人类的语音识别错误率。人类在数据集上达到什么水平呢?通常,一个正常人在数据集上平均值错误率是5.9%,即使受过专业的训练的人,在这个数据集上错误率也达到了5.2%。可以说,至此,语音识别发展已经达到非常成熟的程度。

其实语音识别在商业应用中受到一些阻力,比如手机上的语音助手应用的不是特别多。但在2014年亚马逊推出智能音箱以来,语音识别得到越来越多的关注,比如说房间的混响、旁边的背景噪声以及人声干扰,在这种情况下,其实信号处理是可以做一些工作的,比如我们可以利用麦克风阵列将目标声音和噪音区分开,从而让语音识别率有一个明显提升。

这里面便涉及到信号处理与语音识别的融合的过程,接下来我会举一个更简单的例子,当然可能更偏于学术一些,去解释一下背后更深层次的原因。

以混响为例,现在我在这里演讲,在座的观众听到我的声音其实是我本人的声音和经过强烈的反射后的声音的叠加,在数学上怎么表示呢?可以表示为一个纯净的信号经过房间重新响应得到混响的信号,可想而知,这样一定不会得到一个好的结果。现在一些学者们也在进行深入的研究,比如说让语音信号经过多种房间的重新响应再训练网络,我认为这也不是特别完美的一个过程。首先,即使在同一个房间里面每个点也是不同的,我们有很多的房间,这是很多种组合,相当于同一条语音,可能变化出非常多的一种方式,在这种情况下,让深度学习的网络去学习东西,效果会有所折扣。

在这个过程当中,信号处理完全可以出一个逆流波器,这不能完全和原声一模一样。换言之,就是存在一些偏差,实际当中也有一些非线性效应,但这种信号确实和原来的信号更接近了一些,之后我们再重新训练网络,就可以达到很好的语音识别的效果。

其实,整个信号处理可以做的是什么样的工作?简单一点来说,我们要做的是信号多样性的问题。

左边的图是我们当前的语音识别的系统框图,一般来说,信号回来之后要做一个回声的工作,把设备自己的声音去掉。接下来我们会做一个去混响的操作,然后找到说话人的位置,做一些波形的工作,把处理后的信号送到云端,再后面是声学模型的结构,这就是一个复杂的网络,最终转化成文字。这个过程当中,从波形形成以后,这个信号实际上也是存在一定的失真,需要对后来的网络进行重新的迭代,让它对非线性的部分有一个学习的过程。大家可以看到,总而言之,整个过程还是信号处理跟语音识别的集联关系,不是深度的融合。但我们在不断探索,比如我们现在希望用深度学习的网络把回声消除的非线性部分进一步去除掉,这个公式比较简单,一个设备自己发出声音之后,首先利用线性的部分消除掉,就得到下面的公式,这是参考信号的非线性表达,S(n)是期望的信号,在这里面非线性回声残留会用参考信号的非线性的关系来表达。我们可以利用神经元网络进行一个模拟,这样处理之后,可以得到更好的结果。

右边的图是谷歌的做法,当信号进来之后,同样进行去混响的操作,用后面的两层网络对波束形成的部分做了一个拟合的过程,然后放入声学模型当中处理。

从这几个图可以看到,最简单的是接下来进一步的融合,这个过程可能信号处理发挥的作用更少一些。但如果两个人声重叠在一起,就很难识别出来应该识别哪一个人声。

一个好的系统,最本质的原因主要在于我们是在自然界这样一个复杂的系统当中,一定是存在线性效应也存在非线性效应。关于信号处理,声学擅长解决的是线性部分,深度学习擅长解决的是非线性部分,最好的方式一定是两者的完美融合。比如说鸣笛检测需要定位到车辆的位置,这一过程信号处理就可以发挥作用,通过深度学习把噪声去掉,智能安防和智慧交通系统也是如此。

以上是技术方面的阐释,接下来我们剖析下系统层面。首先,我们认为现在新的系统正在形成,以简单的比喻说明,可以认为是从水母的计算模式向章鱼的计算模式进行转变。那么章鱼和水母有什么区别呢?章鱼的头脑更加聪明,触手更加灵活,从前可以联网的设备无外乎就是手机、平板或电脑,这些设备计算能力比较强,系统比较统一,用水母的计算模式完全可以满足需求。但现在,可以连通网络的设备越来越多,也存在各种各样的系统。如何屏蔽这些不同设备和系统间的差异,尽可能地实现统一,就必然催生出一套新的系统。在这一方面,亚马逊走在了最前列, 2014年亚马逊推出智能音箱的时候就考虑到这个问题,对整套系统进行彻底的优化,将80%的计算放在云端,把20%不能放在云端的计算放在端上,这样做的好处就是不论是再计算能力还是系统方面,都可以最大化地屏蔽端上的差异。

事实上,我们也按照这一思路做了一套自己的系统,这套系统有什么好处呢?简单来说,第一点就是可以极大地降低端上的成本,第二点是可以非常方便地进行定制,比如说采用了我们系统的智能设备应用在酒店中,客人一进酒店关于“餐厅在什么地方”之类的非通用回答的个性化问题,智能设备完全可以提供正确答案。使用这套系统,客户完全可以在网上定制一个对话系统,再将其部署到云端,让酒店的设备都可以按照这一对话系统的逻辑进行工作。

还有一点,当设备接入越来越多的情况下,其实可以反过来让云端更加智能。比如询问酒店的餐厅在哪里,这个问题其实有很多的问法,回到前面的例子,其实这些例子都可以用上述提到的系统进行覆盖。多样化的提问方式可以使得系统定制变得更加简化,以刚刚提到的鸣笛监测为例,就可以对特定的某一时间段进行监测,又或者以政务系统为例,对于不同省份而言政务系统肯定是不一样的。

既然系统有这么多好处,那其背后有没有驱动力呢?我们认为其背后的驱动因素有四个关键点,首先是新的传感器或者传感器的组合,这样能够构造出新产品,比如智能音箱,这就是在传统音箱的基础上简单地加了麦克风阵列,又比如现在的VR或AR设备、可穿戴设备。由于传感器的组合和新的传感器的诞生构建出来新的品类,而且这种新品类将会不断增加,这一过程也会不断扩大,因为传感器的组合方式太多了。

第二,算法方面,其实现在我们也在讲深度学习。深度学习的算法现在可以说发展得越来越快,包括语音识别,在短短两三年的时间里整个系统提升得非常快,也为用户带来更好的体验。

还有一点,云端计算能力要足够强,其实现在的计算能力也是可以满足需求的,但云端计算能力足够强可以让我们运行更大、更复杂的网络。

最后,还需要网络足够给力,现在我们马上也进入到5G时代,5G的网速越来越快,接入网络更加的便捷,在这样大背景下,相信一定有越来越多的设备能够接入到网络。整套系统如果满足以上四点,一定可以复制到更多领域,也会催生出越来越多的新产品。

那么在上面两个趋势下,未来又会发生什么样的事情呢?我在这里做个简单大胆的预测。

未来几年内,可能会出现越来越多的“章鱼”系统,这个过程我们内部称之为“数据的规模效应”,简单理解就是,在接入“章鱼”系统的设备越来越多的情况下,会产生越来越多的数据,这个数据会反哺算法,让算法变得更加智能,又使得“章鱼”更加聪明。接下来将会有越来越多的“章鱼”出现,我们把目光放得再长远一些比如十年、二十年以后,这些“章鱼”系统会不会进行一个裂变呢?比如说变成一个更大的系统,这块我们认为也是会发生的,我们把这一过程称之为“智慧的规模效应”。

如果可以实现将这些合并成一个大的系统,未来的确可以像电影中所展现的那样。但这个过程可能还需要一定的时间,但“章鱼”系统现在正在出现,而且未来会越来越多。今天我的分享就到这里,谢谢大家!

收藏 举报

延伸 · 阅读