金准人工智能分享DeepMind报告——AI“元强化学习”的关键因素同样存在于人类大脑-云灬风的专栏

金准人工智能分享DeepMind报告——AI“元强化学习”的关键因素同样存在于人类大脑

2018-05-17 10:33:44栏目：科技 IP属地：河北省廊坊市

前言

比起人类，深度学习算法已经在很多任务上的表现更优秀。但它们的学习效率很低。一个电子游戏，人类玩一个下午大概就会了，而算法得花上百个小时。Deep Mind认为，这可能是人类的元学习能力占了优势。

Deep Mind指出，人类之所以能非常快地掌握新事物，原因可能是能从以往的经历中提取出规律，这种能力称为元学习。

不过元学习的底层机制一直是个谜。

Deep Mind利用元强化学习来解释人类大脑的快速学习原理，探索多巴胺（dopamine）在人脑学习中的地位，并据此提出了强化学习模型未来的发展思路。

一、前额叶皮质——人脑中的“元强化学习系统”

Deep Mind在该研究中使用AI来探索大脑中的多巴胺所发挥的帮助学习的作用。通过这项研究，Deep Mind使用元强化学习（meta-RL）算法，指出多巴胺的作用不仅仅是奖励对过去行为的学习，它发挥的是整体作用，特别是在前额叶区域，它使我们能高效地学习新知识、执行新任务——而不需要像深度学习算法那样，依赖大量数据进行训练。

多巴胺是人们所熟悉的大脑快乐信号，通常被用来类比AI强化学习算法中使用的奖励预测误差信号，AI和人脑通过反复试错来进行学习与决策，正是由这种奖励推动的。

1.什么是元学习

说到什么是元强化学习，必须先说到什么是元学习。

正如我们所见，目前，AI系统已经掌握多种视频游戏（例如Atari的经典游戏 Breakout和Pong）的玩法，或像阿尔法狗一样学会了下围棋。虽然其表现令人印象深刻，但AI仍然依赖于数千小时的游戏经验才能达到并超越人类玩家的表现，而人类仅需数分钟就可以掌握视频游戏的基本玩法。对大脑何以能在少量的经验下快速学习这一问题的探究推动了元学习（meta-learning）或“学习如何学习”理论的发展。

由于人脑往往轻而易举便能学会更加错综复杂的事物，人们提出了“元学习”理论（theory of meta-learning），换句话说，就是“学习如何学习”。一般认为，我们的学习可以分为两个时间尺度：短期学习中，我们往往更专注于事实的学习；而长期学习中，我们更偏重任务中抽象的技巧与规则。正是这样长期、短期学习的结合帮助我们有效学习，并得以在新任务中快速而灵活地应用新知识。

2.什么是元强化学习

而在人工智能系统中，这种“元学习”结构的再创造被称为“元强化学习”（meta-reinforcement learning），在进行快速、单次的学习任务中极富有成效。然而，要从神经科学角度解释人脑中相应的机制则困难得多。

元学习，即从例子中快速学习，以及随着时间的推移从这些例子中明白事物的规则。这被认为是人类比AI能更有效地获得新知识的原因之一。

在 AI 系统中基于强化学习算法创建这种元学习结构，即元强化学习（meta-RL）。

二、多巴胺在人脑学习中的作用

我们最新运用了人工智能研究中“元强化学习”的框架，以探索多巴胺（dopamine）在人脑学习中的地位。多巴胺因作为大脑中的“快乐信号”被大家熟知，目前被认为是一种“奖励预测误差”（reward prediction error，RPE）信号，类似于人工智能中的强化学习算法。Deep Mind提出，多巴胺的功能并不只是从过往事件中估测奖励值。事实上，多巴胺尤其在前额叶皮质区中扮演着且重要的整体性角色，使我们在新任务中高效、迅速、灵活地学习。

Deep Mind虚拟再现了神经科学领域中6个现实的元学习（meta-learning）实验来测试他们提出的理论。每个实验需要一个元强化学习智能体（meta-RL agent）使用相同的基础原则或技能（但在某些维度上有所变化）来执行任务。研究者使用标准的深度强化学习技术（代表多巴胺）训练了一个循环神经网络（代表前额叶），然后对比该循环神经网络的活动数据和之前神经科学实验研究成果的真实数据是否相同，以求证明其理论。

Deep Mind虚拟再现的其中一个实验是Harlow实验，这是一个 1940 年代提出的心理训练测试，用于探索元学习的概念。在1940年的Harlow实验训练中，研究人员先向一组猴子展示了2个它们不熟悉的物体并让它们进行选择，其中1个物体能带来食物奖励。这两个物体被展示了 6 次，每次展示中两个物体的左右位置都是随机的，因此猴子必须学会选择哪个物体才能带来食物奖励。然后，研究人员又向它们展示了2个新物体并让它们进行选择，这时也是只有其中1个能带来食物奖励。通过该训练过程，猴子摸索出了一种策略来选择可以获得奖励的物体：猴子学会了在第一次选择时进行随机选择，然后基于奖励反馈选择有奖励的物体，而不是只选择左右位置。该实验证明了猴子可以从例子中快速学会完成任务，并学会抽象的任务规则，即元学习（meta-learning）。

虚拟Harlow实验中，元强化学习智能体需要将关注点移向它认为与奖励相关的目标

人类要有很强的学习能力，掌握到多变事物的规律，不可能仅依赖突触增强这种长期慢性的改变。这暗示着多巴胺很可能有能力抽象出模块化的信息。不过，这不是科学家首次用AI模拟人脑。

荷兰内梅亨大学就用循环神经网络预测出了人脑处理感知信息的过程，特别是视觉刺激。但Deep Mind官博认为，大体来讲这些发现对机器学习领域有更大的启发，对神经生物学倒没起到什么推进的作用。

去年，Deep Mind针对人脑的部分解剖结构建模，用神经网络模仿前额皮质的活动以及海马的记忆。结果得到了一个强于大多数网络的AI。最近，DeepMind把研究重心转移到了理性机制上，造了一个合成的神经网络，可进行逻辑推演以及解决问题。

通过这个多巴胺的研究，医学界终于可以从神经网络研究中有所收获和启发了。

从AI里获得对神经生物学界有启发的认知洞见，这两个学科之间的互哺非常可贵。希望随着AI研究的深入，对人脑的运作机制有更多的了解，进一步设计出学习能力更强大的智能体。

Deep Mind使用虚拟计算机屏幕和随机展示的图像模拟了一个类似的测试。他们发现元强化学习智能体（meta-RL agent）的学习方式与Harlow实验中的猴子非常相似，这种相似性即使在展示完全没见过的全新图像时也会存在，即元强化学习智能体（meta-RL agent）能快速学习解决不同规则的大量任务，而且因此它还学到了进行快速学习的通用法则。

事实上，这些元强化学习网络迅速地适应了一系列不同规则和结构的实验任务；也正是因为它们已经了解了如何适应各种任务，它们还学会了高效学习的一些普适性原则。

上图展示了元强化学习算法在多个任务基础上学习如何高效地解决新任务

更重要的是，传统神经科学观点认为，多巴胺可以加强前额叶系统中神经元间的突触联系，慢慢的改变神经元间突触的权重，从而强化大脑的特定的行为。而Deep Mind此次研究结果表明多巴胺不仅可以通过改变突触权重来强化大脑的特定行为，还可以快速编码和传输关于抽象任务规则的重要信息，使得大脑能够更快适应新任务。

模拟循环神经网络中编码动作和奖励历史的独立单元

而且，长期以来，神经科学家们发现前额叶皮质中有类似上一段提到的神经激活模式，这种模式适应速度快且灵活，但他们一直找不到一个合理的解释。前额叶皮质的神经网络不依赖缓慢的突触权重变化来学习抽象任务规则，而是使用多巴胺直接编码的基于模型或例子的信息来快速学习，这个思路为前额叶皮质快速而灵活神经激活模式提供了更合理的解释。

据此，Deep Mind不仅为神经科学做出了贡献，还运用了元强化学习（meta-RL）算法使AI像人脑一般可以快速解决并适应新的任务。

三、元强化学习（meta-RL）的意义

近年来，Deep Mind团队的阿尔法狗打遍围棋界，这让大家惊讶，Deep Mind似乎解决了通用AI中极其核心的一个问题，就是要让AI自己学会思考、学会推理。去年，Deep Mind团队又宣布要用AI挑战《星际争霸2》电脑游戏，然而却遭遇失败。

这是因为AI学会下围棋，是运用了深度强化学习的方法，而非AI真的学会了推理。在围棋棋盘上，给AI提供的选择数量仅有几百个，而《星际争霸2》给AI提供的选择数量达到上千万个，AI需要非常长的时间熟悉这些选择与选择带来的结果，才能做出正确的选择。

然而在面对巨量选择的情况下，人类依然没问题，而且人类通过战略战术大幅度降低了选择范围，因此如何使AI能够学会思考，而不只是从过往经验中慢慢强化正确选择，并快速构建战略以完成新目标非常关键。而模仿人类的元学习（meta-learning）便是使AI学会处理这种高难度问题的解决方法。

运用元强化学习（meta-RL）算法的AI能真正帮助人类解决各种类型的问题，而不只是执行某个特定任务，这将使得AI真正适用到人们的生活、工作中。以AI机器人将来或走进千家万户为例，每个人对AI机器人的要求是不同的，每个家庭的环境也并不相同，如果AI机器人运用元强化学习（meta-RL）算法，则不需要长时间的学习就能快速灵活的适应每个家庭的需求。

总结

一直以来，神经科学家们在前额叶皮质中观察到了不少类似的神经活动模式，然而关于这些适应及时且具有灵活性的模式，他们始终没能找到合理的解释。对于神经模式的多变性，有一种较为合理的观点：前额叶皮质并不依赖于突触权重随着规则结构学习的缓慢改变，而是基于直接编码于多巴胺的抽象模型信息。

我们的研究证明了，人工智能中元强化学习的关键因素同样存在于大脑中，而提出的理论不仅结合了对多巴胺和前额叶皮质的现有认知，还解释了神经科学与心理学的许多未知现象。

这进而引发一些对其他问题的思考：基于结构和模型的学习是如何发生在脑中的？为什么多巴胺本身就编码模型信息？前额叶皮质的神经元是如何调节学习信号的？此外，从人工智能得到的结果能应用到神经科学、心理学等其他学科的发现上，这就进一步强调了不同学科领域间的互惠价值。未来我们期待这一研究成果能够反向，从大脑神经环路的组织结构中获得启发，从而设计出更新、更好的强化学习模型。