KAZE桑 (@kaze-desu) 在 [论文随笔分享] 探索拓展大语言模型智能体的边界中发帖受到 @bfloat16 佬的启发，个人决定开一个笔记分享系列，一方面是促进自己阅读论文的动力，希望每次阅读时，能够细心一些分析有价值的论文，并将这些感悟记录下来，留给有需要的佬友

KAZE桑 (@kaze-desu) 在 [论文随笔分享] 探索拓展大语言模型智能体的边界中发帖

受到 @bfloat16 佬的启发，个人决定开一个笔记分享系列，一方面是促进自己阅读论文的动力，希望每次阅读时，能够细心一些分析有价值的论文，并将这些感悟记录下来，留给有需要的佬友。另一方面是希望与佬们交流见闻，促进自己的视野。本论文分享系列会持续更新，聚焦LLM/Agentic/CV方向的论文。 

0.元信息
论文标题：Expanding LLM Agent Boundaries with Strategy-Guided Exploration 
单位：苹果 
原始论文：[2603.02045] Expanding LLM Agent Boundaries with Strategy-Guided Exploration 
1.前言
本文提出了一种可插拔式的方法，基于GRPO进行实验，因此可以视为对GRPO的改进，但也可应用于其他RL方法。其主要针对策略模型的采样阶段，不涉及奖励函数...