强化学习的起源：从老鼠走迷宫到AlphaGo战胜人类_人工智能_数据报告_资讯_猿巴巴

来源：新智元

编辑：如願

谈到强化学习，很多研究人员的肾上腺素便不受控制地飙升！它在游戏AI系统、现代机器人、芯片设计系统和其他应用中发挥着十分重要的作用。

强化学习算法有很多不同的类型，但主要分为两类：「基于模型的」和「无模型的」。

在与TechTalks的对话中，神经科学家、「智能的诞生」一书的作者Daeyeol Lee分别讨论了人类和动物强化学习的不同模式、人工智能和自然智能，以及未来的研究方向。

ntainer="">
无模型的强化学习
：

19世纪后期，心理学家Edward Thorndike提出的「效应定律」成为了无模型强化学习的基础。

Thorndike提出，在特定情境中具有积极影响的行为，在该情境中更有可能再次发生，而产生负面影响的行为则不太可能再发生。

Thorndike在一个实验中探索了这一「效应定律」。

他把一只猫放在一个迷宫盒子中，并测量猫从盒中逃脱所需的时间。为了逃脱，猫必须操作一系列小工具，如绳子和杠杆。Thorndike观察到，当猫与谜盒互动时，它学会了有助于逃跑的行为。随着时间的推移，猫逃离盒子的速度越来越快。

Thorndike的结论是，猫可以从其行为提供的奖励和惩罚中进行学习。

「效应定律」后来为行为主义铺平了道路。行为主义是心理学的一个分支，试图从刺激和反应的角度来解释人类和动物的行为。

「效应定律」也是无模型强化学习的基础。在无模型强化学习中，通过主体感知世界，然后采取行动，同时衡量奖励。

在无模型强化学习中，并不存在直接的知识或世界模型。RL代理必须通过反复试验，直接去体验每个动作的结果。

基于模型的强化学习

Thorndike的「效应定律」一直流行到20世纪30年代。当时另一位心理学家Edward Tolman在探索老鼠如何快速学会走迷宫时发现了一个重要的见解。在他的实验中，Tolman意识到动物可以在没有强化的情况下了解他们的环境。

例如，当一只老鼠在迷宫中被放出来时，它会自由地探索隧道，并逐渐了解环境的结构。如果随后将这只老鼠重新放进相同的环境，并提供强化信号，如寻找食物或寻找出口，那么它可以比没有探索过迷宫的动物更快地到达目标。

Tolman称之为「潜在学习」，这成为基于模型的强化学习的基础。

「潜在学习」使动物和人类对他们的世界形成一种心理表征，在他们的头脑中模拟假设的场景，并预测结果。

基于模型的强化学习的优点是它消除了agent在环境中进行试错的需要。

值得强调的一点是：基于模型的强化学习在开发能够掌握国际象棋和围棋等棋盘游戏的人工智能系统方面尤其成功，可能的原因是这些游戏的环境是确定的。

基于模型 VS 无模型

通常来说，基于模型的强化学习会非常耗时，在对时间极度敏感的时候，可能会发生致命的危险。

Lee说：「在计算上，基于模型的强化学习要复杂得多。首先你必须获得模型，进行心理模拟，然后你必须找到神经过程的轨迹，再采取行动。不过，基于模型的强化学习不一定就比无模型的RL复杂。」

当环境十分复杂时，倘若可以用一个相对简单的模型（该模型可以快速获得）进行建模，那么模拟就会简单得多，而且具有成本效益。

声明

来源：新智元， RAD极客会推荐阅读，不代表RAD极客会立场，转载请注明，如涉及作品版权问题，请联系我们删除或做相关处理！
：