百度张少霆:“深度学习的技术应用”

2016-12-17 20:25:35

百度张少霆:“深度学习的技术应用”

12月17日,由中国人工智能学会主办,网易科技承办的2016中国人工智能产业大会暨第六届吴文俊人工智能科学技术奖颁奖盛典今日在深圳登喜路国际大酒店举行。

本次大会以“AI新时代·产业新动能”为主题,会上百度深度学习实验室高级架构师张少霆发表名为“深度学习的技术应用”的主题演讲,介绍了从一般的深度学习模型如何用千万级别的样本量完成训练,从而突破超高维度的模型所需要的数据量,最终攻克数据源不足在人工智能发展进程中的巨大障碍,带来了启发和思考。

百度张少霆:“深度学习的技术应用”

以下为演讲实录:

谢谢主办方的邀请,我先简单自我介绍一下,我低调加盟了百度,还没有入职,就被派来做汇报。今天主要是分享一下过去十年我所研究的从事内容,虽然主要讲的是个人观点和感受,但也代表了百度深度学习院的发展。

每次提到医学影像分析,大家都会提到计算机辅助诊断,这确实是一个很大的应用场景,包括肺癌筛查等等非常多东西都是需要做辅助诊断的,像乳腺癌筛查早就在美国商务化了很多年,这其实还有很大的应用空间,除了诊断,在治疗的时候也会很有用。这个是放疗的试验,通常医生需要把相关器官准确勾画出来,确保放疗的时候可以直接杀死癌细胞,而不是伤害到器官。我们和相关医生聊天,做这个勾画要花多长时间?他告诉我要2到4小时,如果通过计算机来制定一个康复方案,来衡量康复效果好不好,这一切都需要计算机影像的参与。这其中最重要的是什么?一直说的是技术、资源,我今天重点讲技术。

现在人工智能处于什么阶段?有没有真正落地的场景?特别是在国内,我想拿一个数据,基本上是每个初创公司都会说的故事,就是肺癌筛查,因为这个在国内非常严重,尤其是近几年雾霾严重。研究表明,原本的CT不能告诉肺癌结果,所以在美国慢慢转变,所谓的CT和低质量CT,三维图象来进行帮助筛查肺癌过程,首先是非常耗时,而且现在是高危人群就去做筛查,这些人大大加大了筛查的数据量,筛查的人往往是有小的肺结核的尺寸,非常难发现。AI在这两年有什么进展?过去我看到最好的效果,是来自上海的一个医院做的肺癌筛查的案例,是人工智能帮助七所医院筛查了几万人,二十万份问卷调查,在七所医院里发出,手动定位到八千个高危人群,然后发信给他们,让他们过来做CT,三千个人来到了医院做检查,最后这三千个人由医生做仔细诊断,找到这些人,整个过程并不人工智能。因为在这个问题上,资源和数据都不是他的壁垒了,主要是技术上的壁垒,这里我大致总结了几点,整个过程大概花了一年的时间,也非常的久。

首先在CT上,很大的问题就是很容易搞混,其次在筛查的时候,尺寸非常小,非常难以定位到,为了减少放射,大家都用B级量的CT,也可以看到图象非常差,也是加大了人工智能可以获得好效果的难点。所以技术上就是有很大的壁垒,目前还没有一个很好的落地技术可以给医生用,让医生非常信任它,能够解决这个问题。我个人觉得在这里有一些研究上的问题,是需要进一步去解决,才有可能获得一个很好的效果,我这里大致列了一些。比如我们需要非常精确的能够检测和找到肺在哪里,肺结结在哪里,海量处理高效图片,医学图象也可以是多维的,得病的人会非常少,大概只有0.5%到1%的人会带这个结结,所以有病例的样本非常少,怎么样让这些样本通过学习得到好的方案,这些都是没有解决的研究性问题。

这里我大致分享我过去十多年来跟工业机器人包括在高校做的努力的尝试,其实离真正解决这个问题还有一段距离要走,主要是和大家共享一下这一块的进展。通常大家想做的,第一步是对图象做预处理,能够把相关的区域找到,就可以在这个区域里进行分析,把他的知识获得,可以辅助诊断,获得知识之后再传达给医生,用更好的方式显示给医生去看,包括现在很流行的增强现实的方式,很多人也开始考虑。第一块就是我博士期间的工作,大概花了五六年时间,第二是做了助手教授的工作,虽然获得了很多奖项,但是离落地还有一段距离。

接下来讲讲几个有意思的现象,很多人说今天讲的是深度学习,今天深度学习很重要的是端对端,输入是数据,输出是结果,为什么在医学图象分析上要做那么多的工作,这里我想用一个例子,端到端在使用的时候到底有没有那么流行?比如人脸识别,这张图象做人脸识别对现在的端对端系统来说非常容易,或者通过戒指识别就能猜到他是谁,但是这不是真实场景,真实场景是有多个人,有背景,在这之前往往要做人脸检测,再做深度学习做法。驾驶领域你也需要做很多的行车检测、车辆检测,把所有信息糅合一起做判断。同样的,在医学图象也是一样,往往都是要先做分割检测的工作,跟这个领域非常相关,然后才能对它进行判断,这样的好处就是我们进一步缩小需要分析的区域,不需要海量的样本,也有可能获得一个很好的效果,这是为什么分割在过去几十年都是医学影像里面一个核心。虽然现在端对端非常流行,它仍然是这个样子。

这个工作是我2010年在西门子完成的,跟现在的框架非常像,首先是获得海量样本,带标注的,然后进来一个头像没有见到过,我们就尝试找到一些关键点,比如说靠近肺和靠近肝的点,把关键点找到以后,结合肝的形状鲜艳模型,我们放一个初始化模型上去,再通过机器学习的方式学到边界应该是怎么样的,尽量的逼近它的边界信息,再通过它的形状部分对它进行进一步的完善,最后获得好的分割结果。过去六年间,这套系统被改进了很多,机器学习的算法不停的在变,但是形状这部分,跟医学影像紧密相关的,这六年来都是我写的代码,一直在用着,没有被更新过。所以这一块内容是领域内的知识加上技术学习的知识一起来解决这个问题。我们用这个东西做了非常多的应用,包括对全身CT,包括肝脏的分割,大部分都是和工业界的合作伙伴,像西门子等等,还有一些医学院做的这些不能叫落地的项目,更加靠近临床的研究。

在获得这之后,下一步怎么做?获得了分割之后,我们希望从中获得知识,这个是病理图象的分析,基本上被认为癌症诊断的标准,是把活体抽出来之后放在显微镜上分析细胞的形态。数字病理非常大,可能几十万乘几十万的超大图片,有非常多的细胞需要分析,目前有极大的分析量,交给人来做并不现实,能交给机器人是更合适。之前提到的分割算法,把细胞分割出来,然后把机器学习方法,再去库里找到图象给医生看,帮助医生看所有图片来做诊断,因为数据库里一些图片是被医生诊断过了有标注,带标注的可以一起给医生帮助他做诊断。有了想法之后我就带了几个学生一起做,分割已经有了,接下来是怎么样从数据库当中找到和当前图象长得更像的图片。当时我们调研了视觉的进展,当时试了谷歌的图象搜索技术,这张图片是旧金山的一家中餐馆照片,把他传到谷歌图象搜索出来就是这么一个结果,能够找到原始图片,因为这个数据库已经被谷歌检索了,但是除了一模一样的图片之外,相似图片主要是一些建筑图片,他们都是建筑,找得挺好的,没有找一些动物或者人,但是没有一张是具体的参观图片,因为很多图片搜索是做泛泛检查,不能够找到跟他一模一样的文件。这是当时我们的一个研究成果,当时我们跟诺基亚那边的数据,是三百万张的城市接到图片,打勾的是同一个建筑,虽然是不同角度不同光亮度拍的,但是我们可以从百万量级的图片里实时找到这就是一个建筑。当时的文章是在UNC实验室做的,但是署名就出现了脸书、谷歌、百度,可能是大家换工作换得太勤快了,等到文章发表大家去了新的单位。我们当时获得了好的性能,在这个领域是比较前沿的结果,我就想能不能把这个算法直接用来做医学影像,事实上还是不行。因为在病理图象上区分是细胞区分,比建筑物区别还要小,在这个问题上我们放了教科书上的图片,左边是正常细胞,右边是癌症细胞,中间的是过渡期的不同等级,区分最左边和最右边一点都不难,最关键的是分析中间的等级,能够准确区分等级非常重要,但是不同等级区分区别非常小,用之前提到的方法还是不足以解决这个问题,这里放了一张图片,放大之后就是需要把细胞都找出来,本身就是很难的工作,因为细胞很多很像,叠加在一起,不管做分割还是图象,一看过就知道这是非常难的难题。

这么一个细胞的级别分析需求,如果没有人工智能怎么办?这就是一个对比,左边是美国的医生写的诊断报告,我在一年前胃不舒服,在医院做过胃部活检,拿了三页报告,读了一个小时。右边是中国的一个报告,基本上就几个参数指标,医生没有时间,没有办法做非常细致的,哪怕是在美国,能写这么长报告也不可能一个细胞一个细胞看,所以人工智能可以起到特别大的作用。当时我跟学生一起做了一套系统,去尝试解决这个问题。我们首先获得了很多训练样本,然后把上面的细胞全部分割出来,就是之前已经积累好的开发算法,把这些细胞,这里是50万个细胞,大概几百个病人,把这些细胞放在数据库里,把它压缩为非常小的二进制编码,表达每个细胞,这样我们只需要很小的存储空间。新进来一张图片,我们不知道这是什么癌症等级,我们把每个细胞都分出来,每个细胞图片全都送到之前已经有的数据库里进行匹配,跟每个细胞都进行匹配,看哪个细胞跟他最像,通过最像的细胞对它进行分类,最后整个形象的癌症到底是哪一类哪一个等级,就根据每个细胞的结果获得。这个工作给我们带来不少学术界的奖项,真正在细胞层面上进行了分析,而且整个过程是实时的。这是我们当时做检索出来的结果,第一面是输入的图片,后面这些是检索出来的相关图片,这是乳腺癌的例子,前两行是比较严重的疾病,后两行是没有关系的,不需要进行手术之类的治疗。应该说准确度很高,并且有极大的容忍性。

刚才我分享的主要是过去十来年间我在高校读博士期间,做助理教授做的工作,这些东西有没有可能达到落地效果?答案是远远不够,还有很长距离,这也是为什么我选择在这个时间离开学校,到工业界,因为百度有最强的技术和很好的资源,可以真正把这个东西从学校推动到落地,之前学校最大的优势是创新,所以我们有机会去试不同的方法,获得不同的经验,但是等到创新已经有的时候,下一步就需要实施,实施需要数据的收集,工程的实现,才能把这个事情敲定落实,接下来我们会在这个方向,大概招15到20人左右,注重在技术,希望把这个东西做到落地级别,跟西门子之类的厂商合作,获得比较好的效果,非常感谢。


收藏 举报

延伸 · 阅读