sylfilic 在 「知识分享」LLM中,什么是强化学习(RL->RLHF) 中发帖
当我第一次尝试理解LLM中的强化学习时,我犯了一个很多人都会犯的错误:直接搜索"RL"、“PPO”、"GRPO"这些关键词,搜到一大堆文章,然后被一堆Actor-Critic、Reward Model、Policy Gradient淹没。
问题是,由于我没有学过“古典RL”,且我只了解LLM,所以总是困惑不已,这些概念怎么套到一个输入文本输出文本的语言模型上的?
这篇文章就是为了clarify这些概念,帮助像我一样入门RLHF的朋友们。
传统RL的核心概念
让我们先系统地梳理一下传统强化学习的基本概念(此部分部分由AI整理,但人工review)。
1. RL的核心要素
强化学习的经典框架包含以下要素:
环境(Environment):智能体所处的外部世界,比如游戏、物理世界
状态(State):环境在某一时刻的完整描述,比如游戏画面、机器人的位置和速度
动作(A...