《强化学习》中的第15章:神经科学

前言: 本次笔记对《强化学习(第二版)》第十五章进行概括性描述。

本次笔记内容依旧很少。神经科学是拓展部分,书上已经尽量将所举例子语言简化。

小结

大脑收益系统相关的神经通路很复杂,且没有被人类完全理解。但发展与成果是有的:

  • 多巴胺神经活动的收益预测误差假说:一群科学家认识到了 TD 误差行为与产生多巴胺的神经元活动之间的惊人之处;
  • 大脑实现了一个类似于“行动器-评判器”算法的东西,这是另一个重要的假说。行动器与评判器使用了不同的资格迹,且这是他们的唯一区别;
  • 多智能体:多巴胺系统的显著特征是释放多巴胺的神经纤维可以广泛地投射到大脑的多个部分…强化学习智能体集合中的每个智能体都会收到相同的强化信号,这个信号取决于所有成员或团队的活动。如果每个团队的成员使用一个足够有效的学习算法,则即使团队成员之间没有直接交流,团队也可以集体学习,以提高整个团队的绩效,并按照全局广播的强化信号进行评估。

后话:依旧是这个问题,我现在时间比较紧张,急于将《强化学习》这本书读完;且现在没有到达能研究心理学与神经科学的高度,因此对于第14、15章采取了略读策略。个人认为这些理论固然重要,且有启发性,但其理论深度甚至已经超出了数学的范畴,即过于偏重理论。笔者会关注这些问题与新闻,希望其能为笔者的工程问题带来启发。

原创文章 163 获赞 177 访问量 4万+

猜你喜欢

转载自blog.csdn.net/weixin_42815609/article/details/105474329
今日推荐