KAZE桑 (@kaze-desu) 在 [论文随笔分享] 探索拓展大语言模型智能体的边界 中发帖
受到 @bfloat16 佬的启发,个人决定开一个笔记分享系列,一方面是促进自己阅读论文的动力,希望每次阅读时,能够细心一些分析有价值的论文,并将这些感悟记录下来,留给有需要的佬友。另一方面是希望与佬们交流见闻,促进自己的视野。本论文分享系列会持续更新,聚焦LLM/Agentic/CV方向的论文。
0.元信息
论文标题:Expanding LLM Agent Boundaries with Strategy-Guided Exploration
单位:苹果
原始论文:[2603.02045] Expanding LLM Agent Boundaries with Strategy-Guided Exploration
1.前言
本文提出了一种可插拔式的方法,基于GRPO进行实验,因此可以视为对GRPO的改进,但也可应用于其他RL方法。其主要针对策略模型的采样阶段,不涉及奖励函数...