@HCPTangHYClaude Opus 4.8测评:幽默A÷,风味4.7 中发帖

先放私有bench 
 [image] 
模型的直觉还是那样,claude的代码水平还是在线的 
[image] 
[image] 
[image] 
但主要扣分点就是,这个模型一次必然写不好,必须返工(不过agent会自己返工也行吧) 
[image] 
神秘typos 
[image] 
他是知道自己写错字了的,不用报错就知道,但还是写错 
还很频繁,错字大模型来了。关键你写码写错字那不就爆了 
在实际bot的agent上表现还有一点,4.8不愿意快速finish掉任务,一定会刨根问底一条路走到黑,导致了严重的token浪费,我说这是达里奥的小巧思有感觉吗。 
然后说话还是4.7那股子死人味 
 [image] 
已经严肃换回4.6,,,
 
 
Back to Top