sylfilic「知识分享」LLM中,什么是强化学习(RL->RLHF) 中发帖

当我第一次尝试理解LLM中的强化学习时,我犯了一个很多人都会犯的错误:直接搜索"RL"、“PPO”、"GRPO"这些关键词,搜到一大堆文章,然后被一堆Actor-Critic、Reward Model、Policy Gradient淹没。 
问题是,由于我没有学过“古典RL”,且我只了解LLM,所以总是困惑不已,这些概念怎么套到一个输入文本输出文本的语言模型上的? 
这篇文章就是为了clarify这些概念,帮助像我一样入门RLHF的朋友们。 

传统RL的核心概念
让我们先系统地梳理一下传统强化学习的基本概念(此部分部分由AI整理,但人工review)。 
1. RL的核心要素
强化学习的经典框架包含以下要素: 


环境(Environment):智能体所处的外部世界,比如游戏、物理世界 


状态(State):环境在某一时刻的完整描述,比如游戏画面、机器人的位置和速度 


动作(A...
 
 
Back to Top