CS294-112 深度强化学习 秋季学期(伯克利)NO.9 Learning policies by imitating optimal controllers

 

 

 

扫描二维码关注公众号,回复: 1057647 查看本文章

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

make compromise between learnt policy and minimal cost!

                    

                     

 

 

 

 

π hat is using states

π theta is using observations

                            

 

 

 

 

 

 

 

 

猜你喜欢

转载自www.cnblogs.com/ecoflex/p/9097988.html