机器人行为产生、优化与学习方法大总结|知识早餐

github上看到一个气势很足的项目eleurent/phd-bibliography，作者把Agent的行为产生、优化与学习方法进行了归类，并罗列了相关的文献与下载链接。这个项目中很多都是我没了解过的方法，这也激起我半整理半学习的重新完整相关知识基础的想法。本篇博客仅对方法的核心思想或者对前人方法改进之处作总结性陈述，如遇值得单篇一提的文献或方法，会旁起一篇对之进行详述。这篇博客的周期可能会很长。。。我会坚持下来的！对于题目，我以机器人作为主语，是因为硕博所在环境接触机器人较多，对方法的解读也更多涉及它在机器人领域的应用情况。

在这里插入图片描述

1. 最优控制

1.1 动态规划(dynamic programming)

核心思想：源于多阶段和递推的决策，逆推（或顺推）的思路，从终点（起点）开始，往后的每个阶段，都是在这个阶段下所处状态的最优前提，然后计算这个阶段的最优状态。因此，动态规划看似是单独一个阶段的最优判断，实则隐含了前面过程的最优信息，在每一阶段都做了最优决策，并影响后面的决策。（全局最优必定局部最优）[引自：知乎|Chris哲 ]能够用动态规划思想求解的问题一般都能表成一有限个状态机（如下图所示），另外一些无限状态机（或状态较多）可采用近似动态规划来求解。动态规划自底向上求解问题，需要存储子问题的值，当状态太多，甚至是无限时，查找表无法构建状态值矩阵，近似动态规划利用连续非线性函数来近似值表（Value Table）。

在这里插入图片描述

几个概念：（1）无后效性：如果给定某一阶段的状态，则在这一阶段以后过程的发展不受这阶段以前各段状态的影响（未来与过云无关）；（2）最优子结构：大问题的最优解可以由小问题的最优解推出。一个问题能够拆成几个小问题，且满足无后效性、最优子结构性质，则可用动态规划的思想来求解。

设计步骤：

简单例程：

小结：

https://www.cnblogs.com/alantu2018/p/8462172.html

参考文献
[1] (book) Dynamic Programming, Bellman R. (1957).
[2] (book) Dynamic Programming and Optimal Control, Volumes 1 and 2, Bertsekas D. (1995).
[3] (book) Markov Decision Processes - Discrete Stochastic Dynamic Programming, Puterman M. (1995).
[4] An Upper Bound on the Loss from Approximate Optimal-Value Functions, Singh S., Yee R. (1994).
[5] Stochastic optimization of sailing trajectories in an upwind regatta, Dalang R. et al. (2015).