谨言慎行 (@Anano) 在 让Agent自己设计Agent:Memento-Skills不改模型参数,靠「失败反思」在HLE上提升116% 中发帖
Memento-Skills 是一个让 AI Agent 从失败中自主学习、改写自身能力的开源框架。核心思路是:不更新大模型参数,而是把所有能力组织成结构化的 Skill 文件(markdown 格式),Agent 在执行任务时自动检索合适的 Skill,失败后通过「读取→执行→反思→写回」闭环定位问题 Skill,修改或重建它,再写回技能库。整个过程零重训成本。
框架从 9 个基础 Skill(文件操作、网页搜索、PDF 处理、Office 文档等)起步,通过迭代学习不断扩展技能库。在 GAIA(通用 AI 助手基准)和 HLE(Humanity’s Last Exam,专家级推理基准)上,经过多轮反思学习后整体准确率分别相对提升 26.2% 和 116.2%。
论文将这一范式称为「部署时学习」,与预训练和微调并列为大模型适应的第三种路径:前两者更新模型参数,需要大量数据和算力;部署...