你这是违法行为 (@Anano) 在 Agent上岗考试：Fable 5最难任务仍交白卷，单题成本高出4到12倍中发帖加州大学伯克利分校 RDI 牵头、联合数百名行业专家，推出全新 AI 智能体评测基准 Agents’ Last Exam（ALE），用以评估智能体完成真实数字化专业工作的能力

你这是违法行为 (@Anano) 在 Agent上岗考试：Fable 5最难任务仍交白卷，单题成本高出4到12倍中发帖

加州大学伯克利分校 RDI 牵头、联合数百名行业专家，推出全新 AI 智能体评测基准 Agents’ Last Exam（ALE），用以评估智能体完成真实数字化专业工作的能力。ALE 覆盖 55 个数字化专业子领域，收集了 1500 多个源自人类专家实际项目的验证任务，支持 GUI 与 CLI 交互环境下的结果验证。 
首批测试覆盖了 Fable 5、GPT-5.5 和 Composer 2.5 等前沿系统。最新官网对比口径显示，在需要持续推理与深厚专业知识的最难任务中，所有受测智能体的成功率全部为 0%，本周刚发布的 Fable 5 同样交了白卷。这主要是因为评测触发了安全策略，Fable 5 约有 35% 的任务被回退切换至旧版 Opus 4.8 运行，导致整体表现远不及其他榜单抢眼。在单任务 API 成本方面，Fable 5 约为 15.70 美元，远高于 GPT-5.5 的 3.8...