@HCPTangHY 在 Claude Opus 4.8测评：幽默A÷，风味4.7 中发帖先放私有bench

@HCPTangHY 在 Claude Opus 4.8测评：幽默A÷，风味4.7 中发帖

先放私有bench 
 [image] 
模型的直觉还是那样，claude的代码水平还是在线的 
[image] 
[image] 
[image] 
但主要扣分点就是，这个模型一次必然写不好，必须返工（不过agent会自己返工也行吧） 
[image] 
神秘typos 
[image] 
他是知道自己写错字了的，不用报错就知道，但还是写错 
还很频繁，错字大模型来了。关键你写码写错字那不就爆了 
在实际bot的agent上表现还有一点，4.8不愿意快速finish掉任务，一定会刨根问底一条路走到黑，导致了严重的token浪费，我说这是达里奥的小巧思有感觉吗。 
然后说话还是4.7那股子死人味 
 [image] 
已经严肃换回4.6，，，