欢迎关注我的CSDN:https://spike.blog.csdn.net/
本文地址:https://spike.blog.csdn.net/article/details/146533892
在强化学习算法中,DAPO (Decoupled Clip and Dynamic Sampling Policy Optimization),通过解耦裁剪和动态采样策略提升模型的推理能力。与 GRPO (Group Relative Policy Optimization) 相比,DRPO 移除 KL 散度惩罚项,允许模型在长推理任务中自由探索,同时,通过调整上下裁剪范围,增加低概率 Token 探索能力,有效缓解熵崩溃问题。DRPO 引入动态采样策略,过滤掉准确率为 0 或 1 的无效样本,确保每个批次中的样本,具有有效的梯度信号,从而提升训练效率和模型的收敛速度。Dr. GRPO (GRPO D