@HCPTangHY 在 Claude Opus 4.8测评:幽默A÷,风味4.7 中发帖
先放私有bench
[image]
模型的直觉还是那样,claude的代码水平还是在线的
[image]
[image]
[image]
但主要扣分点就是,这个模型一次必然写不好,必须返工(不过agent会自己返工也行吧)
[image]
神秘typos
[image]
他是知道自己写错字了的,不用报错就知道,但还是写错
还很频繁,错字大模型来了。关键你写码写错字那不就爆了
在实际bot的agent上表现还有一点,4.8不愿意快速finish掉任务,一定会刨根问底一条路走到黑,导致了严重的token浪费,我说这是达里奥的小巧思有感觉吗。
然后说话还是4.7那股子死人味
[image]
已经严肃换回4.6,,,