百度开放云事业部总经理刘炀:云上的大数据与人工智能
4月29日上午,在GMIC2016(全球移动互联网大会)上,百度开放云事业部总经理刘炀发表主题演讲“云上的大数据与人工智能”,介绍了百度大数据和人工智能方面的研究成果,指出大数据、人工智能的发展应用离不开云计算强有力的支持,而大数据和人工智能的进步也将拓展云计算应用的深度和广度, 同时刘炀表示未来将通过百度开放云把大数据和人工智能技术能力开放给行业和用户使用,推动相关技术的普及和应用,推动行业发展。
百度云计算事业部总经理
刘炀:各位嘉宾上午好!
首先,非常感谢大家这么早的时间能够赶到这个会场来参加这个云和大数据的峰会,我来自百度开放云,百度开放云是百度推出公有云的服务,今天介绍的是云上的大数据和人工智能。大家知道MIT从2001年开始发布十大突破技术,今年在中美两地同时发布信息,今年2016年发布的十大突破性技术包括免疫工程、植物基因、语音接口、可回收火箭、分享机器人、DNA数据、Slack通信软件、空中取电等等,所有这些技术上的突破本质上来讲毫无疑问,背后都有云和大数据支撑。但是仔细一点看,我们发现其中有七项基本上直接跟大数据和人工智能相关,基因大家知道,一个人的基因测序200级以上的数据,这些数据进行无数的匹配和压缩这些都是非常计算的。今天来讲,生物工程已经变成了一个信息产业所以这十大里面其中就有三项其实是跟基因产业相关的,是非常大数据的产业。
另外,像自动驾驶、语音接口和分享机器人,毫无疑问都是人工智能,我们看到今天来讲大数据和人工智能已经处在科技突破的最前沿,非常荣幸百度作为唯一上榜的中国企业,百度在语音接口这个领域的世界领先地位被MIT的十大技术突破所认可。
刚才讲了大数据和人工智能,大数据是什么情况呢?大数据起源于搜索和广告,百度和谷歌积累了大量的大数据能力,大数据已经到了积累期,很多技术已经突破了,大数据已经开始超出了最开始产生大数据的领域,超出了搜索和广告的领域,在越来越复杂的业务场景中大范围的应用。比如说,百度外卖,但为什么我们可以把外卖做到中国最大的外卖平台之一,原因其实百度外卖是基于百度大数据,我们做的效率最高的调度。百度地图,每天会查一下路况,我一看7点半钟左右交通是非常好的,我就7点半出发,8点钟已经很堵车了,宁愿早点走。百度金融,百度跟国金证券在一起,都标志着大数据已经过了当年的技术突破期,今天大数据已经进入了实用期,各行各业都在大量的应用大数据,不光只是百度,所有的行业,我们看到非常多的公司都是这样。
人工智能,大家知道,其实不是一个新概念,60年以前人工智能的概念出来了,为什么这两年人工智能的概念这么热,核心的一点人工智能有巨大的突破在深度学习这个领域有一个巨大的突破。深度学习这个领域巨大突破到底意味着什么?这里有一张图,横轴是数据量,这个纵轴是效果,过去的继续学习的技术,随着数量做的增加,效果就到瓶颈了,边际效益递减很快。而深度学习的突破在本质来讲,它跟过去继续学习的方法最大的不同,深度学习随着数量的增加不会递减,递减的临界点远远比这个老的算法大,这意味着今天来讲几乎可以说只要你有更多的数据,你就可以获得更好的效果,大数据、云计算,所以今天来讲深度学习已经取得了很多的突破,但是不断有新的研究进来,基本上这是深度学体现的效果。
前面提到百度语音技术被MIT十大突破被认可,传统语音都是通过好几步来进行的,通过好几步之后计算量大幅减少,传统的算法所擅长的。今天百度语音技术已经可以全面转向深度学习的方法,也就是说通过一个很深的深度学习的网络不需要区分所有的模型特点,来达到更好的效果。
大家都知道百度今年在无人驾驶上面的投入是非常多的,我们知道自动驾驶今天本质上讲就是人工智能技术的综合运用,它的非常多的领域里面需要使用人工智能。语音识别、图像识别、规划行动、智能推荐、分析决策等等,这些都是在人工智能上有非常大的需求,我们现在为了做无人车建了世界上最大规模的深度学习的网络,万亿级的参数、千亿级的样本,规模不断扩大中。所以我们看到深度学习的突破其实是引领了人工智能下一个大的浪潮。
但是刚才也提到,深度学习的特点越来越多的数据有越来越多好的效果,越来越多的数据需要越来越多的计算,我们人工智能的突破对大数据和计算的需求远超想象。百度在这个上面其实经历了非常多的案例,比方说,百度做的语音Deepspeech,每天语音识别合成请求2.4亿万次,上千台服务器,使用了上千个GPU+FPGA,GPC大家可能很熟悉,FPGA是一种新的硬件,过去更多应用在通信的领域里面,今天FPGA开始在大数据、人工智能看到非常好的表现,在百度大规模的应用FPGA。
计算机视觉使用非常多了,百亿级图片、千亿级非图片数据,10PB级别存储,上千块GPU。广告点击预估CTR,在百度推广里面CTR技术是最核心的技术,这也是千亿级的样本特征,我们超过一万台的机器事实上用在这个CTR运行在里面。万台级别的服务器集群在支持,很多的问题通过人工智能的方法可以得到大幅的提升,但另外也看到人工智能对云计算、大数据底层能力需求大幅提高。
百度今天已经把人工智能这个方向抬到了公司级战略的地位,为了支持百度人工智能的支持,百度在云计算这个平台上有非常大的投入。今天这个平台支撑着百度数十款的数据,让我们来看一下,百度的这些底层云技术,这些黑科技都有什么?现在从下往上看,下面是数据中心,在数据中心领域我们现在支持模块化数据中心建设,百度有自建的数据中心,很多模块都是在工厂里面建好搬过来一拼就可以用了,使得整个数据中心的设计、实施的速度可以大幅提高。我们现在在数据中心里面已经使用离线高压直流电,这个有什么好处呢?过去数据中心电的用量可能只能做到90%利用率,而在百度使用离线高压直流以后可以做到99.5%,百度大量数据中心冷却实现自然冷链的工作,平均年的POE做到1.22,这是非常低的一个值,在中国是第一的,连续两年也是获得中国数据中心协会的最佳能源节能奖的颁奖。
我们看到计算,刚才提到继续学习这个领域对计算要求非常高,我们是国内最大的GPU集群,百度跟很多厂商在一起,包括腾讯、阿里、电信运营商一起推整机柜的方案,百度是整机柜的领导者。在存储领域做了高密度的存储,这里面对很多要求非常高,我们在磁盘故障修复、故障预测做了非常多,50%以上的磁盘故障是自动修复的,我们对98%的磁盘故障可以提出事先的报警,在网络领域我们自研了交换机,在软件定义网络方面做得非常多,现在百度全部万兆的网络接入,这是数据中心内网,我们支持TB级的跨IDC的数据。所有这些是硬件层的规模做得再大,如果没有软件层的调度是没有用的,在分布式系统方面,百度天生是一个分布式的公司,在这个领域做了非常多的事情的今天Hadoop单集群1.5万台,我们的在离线的业务很多,今天很多公司在线是在线,离线是在线,在线服务用户快速的,离线做大数据处理的,都是分开的。所以今天整个百度数据中心所有的机器合在一起CPU利用率可以做到50%以上,这是远超很多业界同类水平的。
为了支持百度云、百度网盘的产品我们支持EB级别的对象存储,在结构化存储上面,我们搜索网页全部是结构化的存储,这也是EB级别的结构化存储。所以百度在云计算基础领域环节做了非常多的工作,只有做了这么多的工作才可以更好的支持上面人工智能、大数据对计算、对存储、网络的渴求。
最后做个广告我们这些技术不管云计算的技术服务还是大数据、云计算,百度开放云这些百度推出公有云的服务,我们为更多的行业应用,包括媒体、营销、物联网、政企等等,我们更希望这些技术事实上可以帮助大家展开大家的想象力,你的需求是什么?我们希望释放这技术的力量,通过技术能够帮助大家去实现大家的想象力,实现大家的梦想。谢谢大家!