李宏毅机器学习2022春季-第十二课和HW12

李宏毅2022课程视频全部以线上视频的形式给出(已经全部录好,你可以选择短时间全部学完),上课时间会直播讲解额外的内容(可以不听)和作业(建议一定要做),目前已更新到作业十二。

第十二课主要内容是Reinforcement Learning(RL, 强化学习),主要是通过actor和environment的互动,根据不同的reward来更新模型,相对于传统的supervised learning,主要区别是训练资料收集的环节,RL是边训练边收集资料,详细课程内容见课程视频。

  • 课程视频

    b站视频号机器学习手艺人

    https://www.bilibili.com/video/BV1Z34y1C7sj

  • Github:课堂和作业课件及基础代码

    https://github.com/yaoweizhang/LHY2022-SPRING

作业十二需要使用kaggle或者colab下载代码、训练数据集、模型等资料,文末也有助教代码和训练数据集的获得方式。

  • 作业任务:

    Lunar Lander(月球着陆),训练飞行器月球着陆,作业基于OpenAI的gym框架(只有linux系统可用),需要实现包括Policy Gradient, Actor-Critic等算法。

  • 提交地址(非选修生用不了)

    https://ml.ee.ntu.edu.tw/hw12/

    截止日期

    2022/06/10 23:59(北京时间),去冲榜吧。

  • 评分:学生通过改进代码提升着陆能力。

  • QQ交流群:156013866

作业十二助教代码和数据获得方式:

  1. 关注微信公众号 “机器学习手艺人” 

  2. 后台回复关键词:202212

猜你喜欢

转载自blog.csdn.net/weixin_42369818/article/details/124981017