神州泰岳人工智能+应用
神州泰岳人工智能的整个经营战略和我们对应的一个产品和市场。
首先,我们对人工智能的认识是这样的,就是人工智能现在包含了两类的基本技术,一类的技术我们叫它感知的技术,一类的技术我们叫它语义认知的技术。感知的技术大家可能都理解,就是我们怎么样进行一个人脸识别,进行一个视频搜索,或者我们进行一个图像识别,这是我们属于感知的技术。认知的技术,我们更多的是强调于说,我们如何让机器来懂一个人的逻辑,然后如何让机器来懂得语言的意义,所以我们叫做语义本身,它就是现在的一个叫自然语义处理的一个NLP的学习算法。那这两类技术现在都在各个行业非常踊跃的在进行互动跟创新。我基本上没有在北京待太长的时间,基本上都是在客户这边,大概三天我们在广东跑几家客户。然后,在这个过程当中,我们一直看到每一家客户,它都在以不同的方式,在以不停的方法用人工智能进行产品创新的探索。同时,也多了一些预算。所以,在今天我们认为人工智能是属于一个爆发的前期,它会是在各业务的应用上把它作为一个基础技术来创造出人工智能将来的应用价值。
目前以深度学习为代表的人工智能的算法对整个人工智能的推荐起到了很大的带动作用,现在看到Alpha Go下围棋,比如在医疗领域、环保里面的应用。这些应用得益于两个特征。第一,我们现在对大数据的样本能够非常好的以相对廉价的方式获取到。第二,现在基于GPU的实践,或者英特尔搞得IPG的实践,可以使得处理能力大大的加速,使得系统的运算,统计能力大大的加速。
从我们深度学习的发展来看,在整个感知过程当中,它的成效是非常显著的。也就是说,像大家看到Google大脑,它可以自己从几十万,或者上百万的图像学习出一个熊猫,也可以逐渐逐渐的摆脱以前任的监督特性进行一种所谓的无监督的学习,它的成就是非常大的,这对于人工智能来讲是一种质的突破,不太依赖于人的校验,就是机器自发学习,本质的突破。这个突破也是本质的层面,大家知道讯飞的语音输入法,从视觉到听觉我们认为取得了比较本质的一个突破。
但是在这个过程当中,我们把语音和语义关联起来,这个基本能力,我相信这是企业要的能力,就是我不只是看到,听到,我应该还懂这个人在讲什么。典型的场景,比如客户场景,或者银行,我们说催收的场景,或者在公安做的一个创面的场景,我们希望懂这篇文章到底在说什么,他的意思,它的意义是什么,而不是用关键词,或者是特征提取,这样的内容,我们认为在实际的企业应用当中它的要求是非常的高。
遗憾的就是说,目前的深度学习的算法在自然语言处理这个方面还没有取得非常长足的增长。它的现在的发展还是属于一种,我们认为是理论的前期。目前国际上也没有一个标志性的论文来认为在自然语言处理上有实际解决的方法取得突破。
比如说,像深度学习的大师就讲了这么一个内容,他说目前在自然语言处理,深度学习是处于一个中间状态,这个中间状态其中有一个很大的原因就是我们很难定义一个语言的基本数据结构来使得他们进行学习和训练。什么意思呢?比如说,我定义一个图片,大家知道RGB,大家做照相的都知道,有最基本的单元,定义一个语音可以有语音最基本的单元。但是,定义一个语义,英文最基本单元是词,中文是字吗?词与词之间的歧义怎么处理呢?所以,基本的数据结构现在很难被定义出来,这样在深度学习上层的效果其实并不是太好,给大家看一个我们在工商银行进行的训练。
训练在深度学习方面主要有这么几个问题。第一,同意和反意,纯粹靠统计的方法是没有办法区分的。比如“和蔼”和“友善”。第二,评价对象和评价概念是不区分的,比如语气、态度、说话,都是好、差、和蔼,是评价对象。这个在深度学习里是不区分的。第三,杂质太多,比如的、地、得,所以这个当时没有办法满足工商银行给我们提出的要求。
这样在行业领域的应有当中,我们发现我们缺乏丰富的样本数据,,用户也不给我们整理这种样本数据。第二,中文有非常强的歧义性,比如夏天能穿多少穿多少,冬天能穿多少穿多少。这都使得我们处理自然语言跟用一个机器人的方式不一样,它不是模糊的结果实现的答案,它要求的是精准。
这样我们做一个“认知+”的人工智能的战略。首先来说,“认知+”本身来自北京师范大学的许老师,在20年前有老师提出对语言的处理,能不能把语言的每个词都变成一种符号,在符号里进行语义网络的运算实现你理解的语义,这个在当时非常了不起,即使到今天我们认为非常了不起。今天数据的计算能力依然不太足以支撑我们这样负责的计算,但是在20年前敢提出来,就是非常了不起的一个跨越性的操作。当然,在这个过程当中有大量的密集的人工的积累,我们越看着人工智能看上去很美,我们越知道它后面发生了什么,它是一个人员高度密集的行业。所以,徐老师就说在技术创新支持,同时形成具有中国气派的信息处理流派。简单的讲识别中文的自然语言应该是中国最擅长的事,我们在这个领域要求做到世界领先。
我们邀请李升(音译)老师加入我们的研究院,他是非常的在学术上有地位的,他的学生王海峰是百度人工智能Group的负责人。ACL这个协会在国际上是排第一名的组织。李升老师也非常希望我们在中文的语言结构和统计算法之间找到一个最佳的实践方法,并且把这个方法应用在各个行业,在应用里发挥人工智能的价值。这是我们请到的人工智能的专家。
下面的内容有点枯燥,用例子给大家讲一下我们具体的技术是怎么样的。首先,公安的智脑分析,在春节的时候已经服务于北京公安了,我们在今年春节之前,我们创了30个电信的案子,这个是被现场督办的,这个案子是过去一年发生的,靠人是做不出来的。首先,大家看到的案件刻划,就是我们对案件进行解读,读出来案件的内容是什么?左边就是案件的简要案情,右边是我们刻划的结果,当然是一个图分析的结果。
比如,对案件进行信息提取,做这样的信息提取的时候,发现它的语义处理上有非常大的难度。第一个难度,比如回到家发现放在电视上的迷你苹果被盗了。第一,我要知道苹果是一个被盗的苹果,我要知道苹果不是一个水果,我要知道丢的不是电视。所以,我们必须要让它懂这个语言的意思,这就是语义的例子。
另外,时间的提取也是非常困难,时间有不同的表示方式,也有不同的时间段,比如我们要进行去噪,进行小歧,像下面这个就不是一个案发时间,也要进行格式标准化,我们要从不同格式里面,把时间提取出来。
这些内容是基于什么呢?就是基于我刚才讲的,我们进行语言统计最基本的数据结构是什么?我们这样去定义一个中文的词汇,一个词汇我们这样描述的,就是包括概念符号、概念的定义,可以是中文,或者日文,藏语等等,包括上位概念,下位概念,五元组表现等。所以“语义=语言文本+领域范畴+意义表示”。这个语料库用五年时间积累了八万个语料库。这样我们在词汇上积累了8300个概念,在句式上积累了3192个基本的句式。这是对语义基本的要求。
这样大家看到我们跟百度翻译不一样,下面大家可以到百度搜一下,这个结果是错的,当然通过训练,结果是可以对的,但是代价很大。这样给业务带来的是什么呢?企业看到我就是我们把复杂的人的自然语言变成一种规范的业务表示,就是我解决业务到语言之间的一个鸿沟。因为我一个评价客户态度,或者评价这个产品的热点,通过不同的方法来说。但是,不管怎么说,在业务上要客户态度好,还是不好,产品好,还是不好,这个是比较重要的一个评价。我们做这类统计的时候,我们就可以把这种灵活的语言归因到业务上面去,这样使得数据价值就被挖掘出来了。
使用的工具,我们叫基于业务建模的DINFO-OEC文本分析挖掘模型,这个本题模型里面把语言进行分解,我们用OEC的框架教机器先学习业务,就是工行有工行的业务,教育有教育的业务,学习业务框架,好像培养一个人一样,我知道一个人从小到大,通过不断的说话,可以学会语言的。但是,一个人不经过专门的学习,它是不太能懂你的专业语言的。比如投资说了什么,律师说了什么,这是需要专门学习的。所以,我们把OEC的产品框架框定在一个范围之内,让机器进行学习。
我们现在是业内首款完成基于业务建模的OEC平台,在这里面的计算我们支持概念结算、关联计算,统计计算。我们提供200多种NLP算法,在交互上提供三种服务类型。这个系统具备建模能力,多语言支持、多算法支持。
这是我们利用这个平台现在做的一些项目,就是工行、中行、建行三大行全都做了,我们跟腾讯、广大也做了一些其他的项目。
这样的一些突破,使得我们突破了两个障碍,一个是我们不再需要大量的数据样本了,因为没有一个行业给你提供大量的数据样本,做不到。第二,我们也不需要特别大的计算能力。
我们整个的“认知+”包括三个大的战略理念。第一,平台化,是智享云来落地。第二,智能化,就是智能机器人和知识苦落地。第三,场景化,我认为场景创新可以促进生态的互动,这个过程当中可以体现数据价值和业务价值。
这是智享云平台,我坚信人工智能可以用在每一个行业,但是怎么用在每一个行业,我不希望人工智能是一个技术门槛,而是应该让业务人员直接在这里面进行交互的能力,让每个节点创造每个节点的价值。或者大家这样来理解,我们第一代的信息平台像网站一样,或者微博一样的信息传播平台。第二代大家看到的是今日头条,它可以依据你的东西个性化给你推荐信息,但是我认为第三代平台应该是一个互动的个性化推荐。就是它应该能跟你互动起来,让你去创造价值,应该是这样的平台,这是我们智享云的理念。我们希望建立一个开放的、交互的、共享的、可扩展的生态,生态里面没有原厂和代理的概念,而是大家共同用人工智能挖掘它的价值。
核心能力,“智”,指智慧,包括分析模型和数据模型,智能包括人工智能的语义模型,包括知识的积累,“享”是共享和生态,“云”是指服务的交互方式,就是我们在数据、建模、流程、可用化四个方面应用了它的标准。整个生态里面包括了社区,包括了人员的角色,包括了增值服务商,包括了工具。
这是整个应用架构,人工智能的应用架构不是简简单单的一个解析,应该是怎么样把语义用在更好的,或者是语音,或者是图像,用在更好的业务能力上面的架构。这个架构包括了数据存储中心,包括了核心的服务引擎,包括核心计算管理中心,包括了大数据管理中心,包括了用户探索分析中心,包括了服务管理监控中心,包括了数据采集中心,也包括了运维的中心等等。所有这些合到一起,我们才能使得业务价值充分的被业务人员挖掘出来,业务人员知道数据在哪儿,知道该怎么去挖掘它的价值,而不是我等待一个技术资源。我们利用这个平台,希望把人工智能释放到方方面面各个领域。
因为今天有很多投资界的人,所以用大家最熟悉的一个场景创新给大家说我们的战略。我们有三个战略,平台战略,场景战略和智能化战略。以我们做的智能投顾为例,我们分析了国外的智能投顾模式,有PPT上这五类,但是在国内只有一类。我们现在看到的问题,比如在场景下看到的问题,第一个缺乏用户黏性。第二,用需求判断不准。第三,资产体验不足,就是我们的产品太单一了,我们没有太多的指数产品。第四,缺乏个性化的资产的配备组合,而且整个收益比较低,这样导致用户黏性进一步的下降,这是我们在国内看到的状态。
假如我们需要进行创新,我们怎么做呢?首先,把这个系统定义成“智投系统+社区生态+理财教育”三个系统,而不是单独提供一个智能投顾的系统。它应该是一个三合一的生态在这个里面。生态里面构建了整个智能投顾的流程,进行产品组合的筛选,筛选一方面我们通过人气、趋势和资金进行筛选,另一方面做一个负面的筛选,通过宏观经济战略,群体战略筛选,还有标签筛选,最后做策略再平衡和策略的评价,这是智能投顾的流程。
在这个过程当中,我们又进一步衍生它的生态的概念,把智能投顾的个性的人,通过5-20个人组成这样的小圈,通过它的标签和图谱来把它逐渐成长,按照它的频次、水平和净值逐渐成长,最后我们给这些用户提供一个是24小时的私人助理,一个是他的状态,另外一个是培训内容。在这个过程当中,我们用大量的人工智能,比如私人助理就是机器人提供这样一个服务。
这样我们就对新用户和老用户有两类不同业务流向。通过风险评测之后,有两个不同的业务流向。我们从产品方向、理财规划,到客户画像,到产品配置,做了策略和渠道发行的整个方向。我们客户画像可以做八个维度。
举个例子,传统的客户画像都是静态的,就是我是通过问卷,由理财规划师进行调研,然后给出一个资产策略。但是,更多人的真实意图是动态的,既不是它的历史交易,也不是它的问卷,是他每天,每分钟在消费的数据,他产生的数据,这个就是我们对实际互联网的理财问题的一个画像的过程,就是我们用人工智能的方法把它自动的分成八大类。
这个画像我再讲一下,我认为个性化推荐和精准营销不应该局限于静态画像,应该配合动态画像。这样我们把他说的一句话跟产品环节对应上,这是举个例子,当然跟大宗产品交易,跟股票都有对应的方法。
然后,在产品要素里面,我们进行这样的匹配,比如基金经理,我们直接从PDF文档里面用语义解析的方法解析出来,我们解析给万德比解析给工行的内容要多。同时,我们也把历史的一个基金经理人,第一次把他所有过去十年的业绩展现给大家看,他是一个强的汇总和解析的平台。这样我们就解决了当时招商提到的两个困惑,一个是外部数据不够,一个是内部交易不够。然后,这样我们就生成了这样的系统,构造理财规划,然后就是资产配置,然后这是我们做产品组合策略,通过人气,当然人气也是第一次引进到这个平台里边。这样我们最后把产品推荐到每一个智能投顾的运算的前端。
用的算法,理财规划有理财的算法。这里是突破现在理财规划的方法。我们现在国内只是做了产品推荐。第二,资产配置,资产配置基本上一个是做基本面分析模型,一个是做定价的一些均值的分析模型,另外用人工智能,所以它是一个综合的平台,我们希望在这个平台上面进行场景化的创新,意义就在这儿,就是智能的做创新,不再局限于技术,局限于我们在这个技术之上的能力。
讲一下富二代机器人,人工智能有一个应用就是机器人。我们传统的机器人能做的东西有限。这是一个实际的例子,这是现在机器人的一个问题,它的问题和答案的相关性很难以提升。原因是因为这个机器人的架构步骤是这样的,我们的业务文档获取之后,他用人工加工形成问答,最后把它逐步的入库进行维护。这样一个机器人,第一个,它不像是人,因为第一它就是一对一的,你不问他不说,正常人的对话,应该是你问他,他可能会说几句,也可能会说一句,也可能反过来问你,也可能他主动说。第二,这个场景非常的刻板,他只是应用的特别局限,他不能干活,也不能教你的孩子写作业。第三,这个知识加工的成本非常低,平均一个问题需要维护1200个扩展问题,要由人来写表达式。第四,沟通的方法表达非常单一,非常苍白。
我们基于这个想重新定义一个智能机器人。就是在底层的知识结构,在业务建模上面做规划。产品定位一个是面向私有部署和嵌入式的智能问答产品。第二,解决传统机器人在语义理解、知识表示和知识运维上面的难题,这三个方面,语义理解、知识表示和运维。第三,重新定义机器人的底层结构,研发底层的知识结构,研发智能问答底层技术等。
这里是场景化,机器人场景不仅包括问答,还包括外呼的,推荐的等。机器人本身可以干一点销售的事,可以去营销一点产品,可以去增加用户的黏性,这就是为什么我们在智能投顾里想引用机器人的原因,想突破它的使用场景。
第二,知识表示标签化,一个知识应该包括了它的渠道、维度、动作、分类。
第三,差异化。
第四,知识架构的自动化。在这里做了四个颠覆性的设计。
这样的设计我们做出来之后,我们在外部场景非常多,比如我们可以主动联系你做智能客户,它可以主动推销,也可以主动去要信用卡,逾期欠款。另外,它也可以在特定的场景下触发一个机关去赚钱,比如提额的流程是什么。同时它也可以完成信用卡的销售,它的回答不再是一对一,而是会做营销。
另外,这个机器人可以依据你的问答说他的话。这里面还有一个知识加工,这是给海尔洗衣机提供的,就是一个手册,我们提供27个知识条目。这是一个典型的东西。比如传统来讲,海关出入境的机器人,我们做的实体机器人,正常的问答就是我带仿真枪可以上飞机吗?但是实际上人希望的回答就是你告诉我行还是不行,这种知识我们就把它加工成类似这样的知识,非常像人的自然问答,而不是搜索出一个文章,告诉你文章里的你自己来肯。然后,你问他,毛巾能不能,这个机器人必须要理解,它需要具备这样的智能。
经过这样的处理,我们把智能问答解决了它的不同问法,给同一答案,这种灵活的知识架构,这样问题和答案的相关度就提升了。我们希望去掉群体的过程,降低维度,同时提供了大的素材,这个素材可以入库,可以以任何形式展现出来。而且我们可以跟现在的机器人知识库做交互,比如说这是跟小i的合作。
接下来是一个智能问答,在智能加工和语义技术上我们都处于相对领先的三个能力。它带来的好处就是问答准确率更高,运营成本更低,而且实施效率更快。这是我们对优势一个量化的分析,基本上是重新做的,就是以前没有。在这个过程当中,机器人不单是机器人,更多是业务办理员,可以用在很多场景,我们可以用在车上,告诉这个车,你给我记一下,我开会几点到几点。我们也可以用在教育上,这个题一共有三个知识点,应该注意这三个知识点的复习,而不是告诉他一道一道题该怎么答。
3月28日至29日,由工业和信息化部指导,中国信息通信研究院、中国通信标准化协会主办,数据中心联盟、大数据发展促进委员会承办的“2017大数据产业峰会”将在北京国际会议中心盛大召开。本文来自中国通信研究院网站