强化学习的时代,机器被指导“自主学习”

2017-02-22 09:05:26

技术突破:强化学习(Reinforcement Learning,RL)是一种人工智能方法,能使计算机在没有明确指导的情况下像人一样自主学习。

重要意义:假如机器不能够自主通过环境经验磨练技能,自动驾驶汽车以及其他自动化领域的进展速度将受到极大地限制。

主要研究者:

- DeepMind - 科大讯飞

- Mobileye - 阿里巴巴

- OpenAI - 微软亚洲研究院

- Google - 中科院

- Uber - 百度

成熟期:1~2年

强化学习技术,正是AlphaGo能够掌握复杂的围棋游戏,并击败世界最强职业选手的关键。如今,强化学习正在迅速发展,并逐步将人工智能渗透到除了游戏之外的各个领域。除了能够提升自动驾驶汽车性能,该技术还能让机器人领会并掌握以前从未训练过的技能。

本质上,强化学习技术是从自然界中学习的一种基本法则。心理学家爱德华·桑代克(Edward Thorndike)在100多年前也注意到了这一点。在最著名的迷箱实验中,桑代克将猫放在一个迷箱中,猫只能通过按压一个控制杆才能逃脱。观察结果显示,经过相当长时间的来回徘徊,动物最终总会偶然地踩到控制杆,然后逃脱。

一些最早期的人工智能研究者认为,迷箱实验的过程有可能在机器中有效地重现。早在1951年,马文·明斯基(Marvin Minsky)创造了世界上第一台具有学习能力的机器,利用简单形式的强化学习方法模拟了一只老鼠如何学习走出迷宫。

然而,随后的几十年里这个领域几乎没有什么喜人的成绩。1992年,IBM的研究员杰拉尔德·特索罗(Gerald Tesauro)演示了一个使用人工智能技术玩西洋双陆棋的程序。很快,这个程序就玩的非常熟练,并足以与最好的人类玩家竞赛。这是人工智能发展史上一个里程碑式的成就。

强化学习技术之所以行得通,是因为研究人员找出了如何让计算机程序计算出每种状态下应该分配的强化值的方法。还是以迷箱实验为例,在走出迷宫的过程中,“模拟老鼠”每一次做出“向左转”或者“向右转”动作时,计算机程序会做出奖或惩的评价。并且,所有分配的强化值都存储在一张大表格中,然后计算程序会随着学习的过程逐步更新这些数据。

但对于大型复杂的任务,这种方法在计算上是不切实际的。然而,近几年来,深度学习技术被证明是一种用来识别数据模式的极其高效的方式,无论这里的数据指的是迷宫中的转弯、围棋棋盘上的位点,还是计算机游戏中屏幕上的像素,亦或是自动驾驶时面临的复杂路况。

在国内,以科大讯飞为例,这家公司已经针对强化学习在多个方向展开了研究和应用,包括人机对话系统、智能客服系统、机器辅助驾驶、机器人控制等方向,都已有了应用研究。以对话系统这样一个多轮人机交互系统为例,它就是一个非常典型的强化学习应用案例。

传统的任务完成型对话系统,用户需要在一次交互过程中把自己的需求描述清楚,这样的交互不是自然的。在讯飞的AIUI交互系统框架中,引入了多轮交互的思想,由一个深度强化学习(马尔库夫决策过程)模型来引导用户输入需求,从而快速、自然流畅地完成用户任务。

同时,许多工业机器人制造商也将目光投向了强化学习技术,测试该技术在无手工编程情况下训练机器执行新任务的效果。此外, Google公司的研究人员也正与DeepMind合作,试图利用深度强化学习(deep reinforcement learning)技术使其数据中心更加节能。

通常,找出数据中心各个单元如何影响系统总能耗是十分困难的,但是强化学习算法能够从收集的数据以及模拟实验中学习经验并提出优化建议,比如说,如何以及何时启动冷却系统。


收藏 举报

延伸 · 阅读