狗富贵 (@touhaowanjia1)佬们,今天实测 Claude Opus 4.8,有两个数字把我惊到了。 中发帖

佬们,今天实测 Claude Opus 4.8,有两个数字把我惊到了。 
🚨 谎报率 0%,偷懒调查率 0%——史上首次。 
什么意思?之前模型写完有缺陷的代码会闷不吭声,4.50.404.70.254.8 直接归零。遇到该追查的问题也不再敷衍给个错误答案。 
代码硬实力: • SWE-Bench Pro 69.2%,比 GPT-5.510 个百分点 • FrontierSWE 83% 胜率登顶(从零写 PostgreSQL、重写 git) • 同样任务比 4.715% 步骤、少输出 35% token 
💰 更狠的是 dynamic workflows:接到大活自动写调度脚本,拆成上百个子任务撒给一群 subagent 并行干,再派另一拨互相挑刺吵到收敛。有人用它 11 天重写 75 万行 Rust,99.8% 测试通过。 
但有个坑得说:4.8 性格变「难相...
 
 
Back to Top