sylfilic 在「知识分享」LLM中，什么是强化学习（RL->RLHF）中发帖当我第一次尝试理解LLM中的强化学习时，我犯了一个很多人都会犯的错误：直接搜索"RL"、“PPO”、"GRPO"这些关键词，搜到一大堆文章，然后被一堆Actor-Critic、Reward Model、Policy Gradient淹没

sylfilic 在「知识分享」LLM中，什么是强化学习（RL->RLHF）中发帖

当我第一次尝试理解LLM中的强化学习时，我犯了一个很多人都会犯的错误：直接搜索"RL"、“PPO”、"GRPO"这些关键词，搜到一大堆文章，然后被一堆Actor-Critic、Reward Model、Policy Gradient淹没。 
问题是，由于我没有学过“古典RL”，且我只了解LLM，所以总是困惑不已，这些概念怎么套到一个输入文本输出文本的语言模型上的？ 
这篇文章就是为了clarify这些概念，帮助像我一样入门RLHF的朋友们。 

传统RL的核心概念
让我们先系统地梳理一下传统强化学习的基本概念（此部分部分由AI整理，但人工review）。 
1. RL的核心要素
强化学习的经典框架包含以下要素： 


环境（Environment）：智能体所处的外部世界，比如游戏、物理世界 


状态（State）：环境在某一时刻的完整描述，比如游戏画面、机器人的位置和速度 


动作（A...