重剑无锋 (@HeavySword) 在 LLM & Agent 每日论文阅读计划-D3 中发帖LLM & Agent 每日论文阅读计划-D3

重剑无锋 (@HeavySword) 在 LLM & Agent 每日论文阅读计划-D3 中发帖

LLM & Agent 每日论文阅读计划-D3

碎碎念
最近比较忙也是好几天没更新。本来计划第三天去看GRPO的。但是发现牵扯出了PPO、RLVR、RLAIF、RLHF等一大堆我不会的强化学习内容，于是打算从大模型用的强化学习算法开始从头看起。后面继续更新慢慢深入。 

今日阅读主题

标题：大模型的强化学习微调
参考资料：

Illustrating Reinforcement Learning from Human Feedback (RLHF) - HuggingFace Blog, 2022.12
Post-Training Techniques 2026 - LLM Stats Blog, 2026.03
GRPO: the RL Algorithm Behind DeepSeek-R1 - Cameron R. Wolfe, 2025
The State of LLM Rea...