机器学习的三种方式

监督学习、无监督学习、强化学习

强化学习

举例1

• 强化学习的思路和人比较类似,是在实践中学习
• 比如学习走路,如果摔倒了,那么我们大脑后面会给一个负面的奖励值 =>这个走路姿势不好;如果后面正常走了一步,那么大脑会给一个正面的奖励值 =>这是一个好的走路姿势

举例2:

• 强化学习没有教师信号,也没有label,即没有直接指令告诉机器该执行什么动作
• 反馈有延时,不能立即返回
• 输入数据是序列数据,是一个连续的决策过程

比如AlphaGo下围棋的Agent,可以不使用监督学习:
请一位围棋大师带我们遍历许多棋局,告诉我们每个位置的最佳棋步,这个代价很贵expe nsive

• 很多情况下,没有最佳棋步,因为一个棋步的好坏依赖于其后的多个棋步
• 使用强化学习,整个过程唯一的反馈是在最后(赢or输)

与监督学习的区别

没有监督学习已经准备好的训练数据输出值,强化学习只有奖励值,但 是这个奖励值和监督学习的输出值不一样,它不是事先给出的,而是延后给出的(比如走路 摔倒)

与非监督学习的区别

在非监督学习中既没有输出值也没有奖励值的,只有数据特征,而强 化学习有奖励值(为负是为惩罚),此外非舰队学习与监督学习一样,数据之间也都是独立的, 没有强化学习这样的前后依赖关系

发布了79 篇原创文章 · 获赞 14 · 访问量 2万+

猜你喜欢

转载自blog.csdn.net/qq_38689232/article/details/104486675