1.软件版本
MATLAB2019a
2.本算法理论知识
具体参考如下的文献:
我们的强化学习控制结构如下图所示:
评价函数设计:
参数调整法则设计:
我们这里的规则如下:
y = alpha*(1-Vt);
因为论文的研究方法,我们测试返现,如果前后调整量Pt不变或者很小的时候,会导致deltaP极大,从而破坏算法的稳定性。
然后我们是分别对P和I,和D进行调整,
也就是对应模型中的5个调整模块,但是在本课题中仿佛这种五级效果范围不好,我这里设置alpha为1,那么本质上就是三级。对应的模型我没删除,放在原来模型中,供你参考。
决策机制:
3.核心代码
4.操作步骤与仿真结论
然后RL的学习过程如下:
5.参考文献
[1]高瑞娟, 吴梅. 基于改进强化学习的PID参数整定原理及应用[J]. 现代电子技术, 2014, 37(4):4.A05-66