你这是违法行为 (@Anano)Agent上岗考试:Fable 5最难任务仍交白卷,单题成本高出4到12倍 中发帖

加州大学伯克利分校 RDI 牵头、联合数百名行业专家,推出全新 AI 智能体评测基准 Agents’ Last Exam(ALE),用以评估智能体完成真实数字化专业工作的能力。ALE 覆盖 55 个数字化专业子领域,收集了 1500 多个源自人类专家实际项目的验证任务,支持 GUI 与 CLI 交互环境下的结果验证。 
首批测试覆盖了 Fable 5、GPT-5.5 和 Composer 2.5 等前沿系统。最新官网对比口径显示,在需要持续推理与深厚专业知识的最难任务中,所有受测智能体的成功率全部为 0%,本周刚发布的 Fable 5 同样交了白卷。这主要是因为评测触发了安全策略,Fable 5 约有 35% 的任务被回退切换至旧版 Opus 4.8 运行,导致整体表现远不及其他榜单抢眼。在单任务 API 成本方面,Fable 5 约为 15.70 美元,远高于 GPT-5.53.8...
 
 
Back to Top