《深度强化学习》面试题汇总

原文出处：
[1] 腾讯云.《深度强化学习》面试题汇总
 [2] Reinforcement Learning遇到的一些强化学习面试问题
 [3] 知乎.再励学习面试真题

深度强化学习报道

来源：Blog(AemaH,苏克)

编辑：DeepRL

不知不觉中求职季已经进行了很长时间，算法岗位的招聘可以说是非常火爆，但目前强化学习的面试题目相对来说比较少，本文整理了大约50多道题目，仅供大家自测，也欢迎总结和贡献答案！

什么是强化学习？
强化学习和监督学习、无监督学习的区别是什么？
强化学习适合解决什么样子的问题？
强化学习的损失函数（loss function）是什么？和深度学习的损失函数有何关系？
POMDP是什么？马尔科夫过程是什么？马尔科夫决策过程是什么？里面的“马尔科夫”体现了什么性质？
贝尔曼方程的具体数学表达式是什么？
最优值函数和最优策略为什么等价？
值迭代和策略迭代的区别？
如果不满足马尔科夫性怎么办？当前时刻的状态和它之前很多很多个状态都有关之间关系？
求解马尔科夫决策过程都有哪些方法？有模型用什么方法？动态规划是怎么回事？
简述动态规划(DP)算法？
简述蒙特卡罗估计值函数(MC)算法。
简述时间差分(TD)算法。
简述动态规划、蒙特卡洛和时间差分的对比（共同点和不同点）
MC和TD分别是无偏估计吗？
MC、TD谁的方差大，为什么？
简述on-policy和off-policy的区别
简述Q-Learning，写出其Q(s,a)更新公式。它是on-policy还是off-policy，为什么？
写出用第n步的值函数更新当前值函数的公式（1-step，2-step，n-step的意思）。当n的取值变大时，期望和方差分别变大、变小？
TD（λ）方法：当λ=0时实际上与哪种方法等价，λ=1呢？
写出蒙特卡洛、TD和TD（λ）这三种方法更新值函数的公式？
value-based和policy-based的区别是什么？
DQN的两个关键trick分别是什么？
阐述目标网络和experience replay的作用？
手工推导策略梯度过程？
描述随机策略和确定性策略的特点？
不打破数据相关性，神经网络的训练效果为什么就不好？
画出DQN玩Flappy Bird的流程图。在这个游戏中，状态是什么，状态是怎么转移的？奖赏函数如何设计，有没有奖赏延迟问题？
DQN都有哪些变种？引入状态奖励的是哪种？
简述double DQN原理？
策略梯度方法中基线baseline如何确定？
什么是DDPG，并画出DDPG框架结构图？
Actor-Critic两者的区别是什么？
actor-critic框架中的critic起了什么作用？
DDPG是on-policy还是off-policy，为什么？
是否了解过D4PG算法？简述其过程
简述A3C算法？A3C是on-policy还是off-policy，为什么？
A3C算法是如何异步更新的？是否能够阐述GA3C和A3C的区别？
简述A3C的优势函数？
什么是重要性采样？
为什么TRPO能保证新策略的回报函数单调不减？
TRPO是如何通过优化方法使每个局部点找到让损失函数非增的最优步长来解决学习率的问题；
如何理解利用平均KL散度代替最大KL散度？
简述PPO算法？与TRPO算法有何关系？
简述DPPO和PPO的关系？
强化学习如何用在推荐系统中？
推荐场景中奖赏函数如何设计？
场景中状态是什么，当前状态怎么转移到下一状态？
自动驾驶和机器人的场景如何建模成强化学习问题？MDP各元素对应真实场景中的哪些变量？
强化学习需要大量数据，如何生成或采集到这些数据？
是否用某种DRL算法玩过Torcs游戏？具体怎么解决？
是否了解过奖励函数的设置(reward shaping)？

本文同时将题目同步在Github，欢迎各位pull request最优秀的答案！文末会一一致谢各位贡献者，也欢迎大家群内讨论！

https://github.com/NeuronDance/DeepRL/blob/master/DRL-Interviews/drl-interview.md

致谢：本文(下两链接)参考AemaH和苏克博客整理而来，在此表示感谢！

https://zhuanlan.zhihu.com/p/33133828

https://aemah.github.io/2018/11/07/RL_interview/

深度强化学习实验室

算法、框架、资料、前沿信息等

GitHub仓库

https://github.com/NeuronDance/DeepRL

《深度强化学习》面试题汇总

猜你喜欢