强化学习的时代，机器被指导“自主学习”

2017-02-22 09:05:26

技术突破：强化学习（Reinforcement Learning，RL）是一种人工智能方法，能使计算机在没有明确指导的情况下像人一样自主学习。

重要意义：假如机器不能够自主通过环境经验磨练技能，自动驾驶汽车以及其他自动化领域的进展速度将受到极大地限制。

主要研究者：

- DeepMind - 科大讯飞

- Mobileye - 阿里巴巴

- OpenAI - 微软亚洲研究院

- Google - 中科院

- Uber - 百度

成熟期：1~2年

强化学习技术，正是AlphaGo能够掌握复杂的围棋游戏，并击败世界最强职业选手的关键。如今，强化学习正在迅速发展，并逐步将人工智能渗透到除了游戏之外的各个领域。除了能够提升自动驾驶汽车性能，该技术还能让机器人领会并掌握以前从未训练过的技能。

本质上，强化学习技术是从自然界中学习的一种基本法则。心理学家爱德华·桑代克（Edward Thorndike）在100多年前也注意到了这一点。在最著名的迷箱实验中，桑代克将猫放在一个迷箱中，猫只能通过按压一个控制杆才能逃脱。观察结果显示，经过相当长时间的来回徘徊，动物最终总会偶然地踩到控制杆，然后逃脱。

一些最早期的人工智能研究者认为，迷箱实验的过程有可能在机器中有效地重现。早在1951年，马文·明斯基（Marvin Minsky）创造了世界上第一台具有学习能力的机器，利用简单形式的强化学习方法模拟了一只老鼠如何学习走出迷宫。

然而，随后的几十年里这个领域几乎没有什么喜人的成绩。1992年，IBM的研究员杰拉尔德·特索罗（Gerald Tesauro）演示了一个使用人工智能技术玩西洋双陆棋的程序。很快，这个程序就玩的非常熟练，并足以与最好的人类玩家竞赛。这是人工智能发展史上一个里程碑式的成就。

强化学习技术之所以行得通，是因为研究人员找出了如何让计算机程序计算出每种状态下应该分配的强化值的方法。还是以迷箱实验为例，在走出迷宫的过程中，“模拟老鼠”每一次做出“向左转”或者“向右转”动作时，计算机程序会做出奖或惩的评价。并且，所有分配的强化值都存储在一张大表格中，然后计算程序会随着学习的过程逐步更新这些数据。

但对于大型复杂的任务，这种方法在计算上是不切实际的。然而，近几年来，深度学习技术被证明是一种用来识别数据模式的极其高效的方式，无论这里的数据指的是迷宫中的转弯、围棋棋盘上的位点，还是计算机游戏中屏幕上的像素，亦或是自动驾驶时面临的复杂路况。