🍉 (@white_goose)【求推荐】想入门 OPD训练,求一条适合零基础强化学习的学习路线 中发帖

自 DeepSeek-V4、Qwen3.6 发布以来,On-Policy Distillation(OPD)的热度一直很高。最近看到很多博主都在介绍这种训练方法,所以也想找一个合适的项目入门,系统学习一下这类模型训练流程。 
一方面是为了学习新技术,另一方面也是希望未来找工作时,简历上能够比较扎实地写一句:熟悉强化学习相关的模型训练方法。 
个人基础
目前我的基础大致如下: 

有传统深度学习基础,了解 CNN、RNN、Transformer;
有一定 LLM 基础、SFT 微调基础;
对强化学习基本属于零实操经验;
大致了解 on-policy、off-policy、模型蒸馏的基本概念;
粗略了解 GRPO、DPO、PPO 的基本原理,但没有实际训练经验。

对于强化学习中比较复杂、抽象的公式,我目前兴趣不算特别大,更希望先从“怎么训练、怎么落地、怎么做项目”的角度入门。 
现在的状态是...
 
 
Back to Top