狗富贵 (@touhaowanjia1) 在佬们，今天实测 Claude Opus 4.8，有两个数字把我惊到了

狗富贵 (@touhaowanjia1) 在佬们，今天实测 Claude Opus 4.8，有两个数字把我惊到了。中发帖

佬们，今天实测 Claude Opus 4.8，有两个数字把我惊到了。 
🚨 谎报率 0%，偷懒调查率 0%——史上首次。 
什么意思？之前模型写完有缺陷的代码会闷不吭声，4.5 是 0.40，4.7 是 0.25，4.8 直接归零。遇到该追查的问题也不再敷衍给个错误答案。 
代码硬实力： • SWE-Bench Pro 69.2%，比 GPT-5.5 高 10 个百分点 • FrontierSWE 83% 胜率登顶（从零写 PostgreSQL、重写 git） • 同样任务比 4.7 少 15% 步骤、少输出 35% token 
💰 更狠的是 dynamic workflows：接到大活自动写调度脚本，拆成上百个子任务撒给一群 subagent 并行干，再派另一拨互相挑刺吵到收敛。有人用它 11 天重写 75 万行 Rust，99.8% 测试通过。 
但有个坑得说：4.8 性格变「难相...