绪里 (@shcofficial)来自官方System Card的Claude Opus 4.7牙膏倒吸实证 中发帖

直接把分析放最前面:虽然整体来说在代码、多模态、电脑操作之类的领域有提升,但system card里也放了一些很差的结果。尤其是在类似大海捞针的长文本场景表现比Opus4.6更差(而且差了好多好多,几乎减半了!),在等量token使用的情况下在BrowseComp做网页操作也比Opus 4.6大概有5%的性能下降。DeepSearchQA的限定总token的检索也比4.6略差。 
 [image] 
[image] 
[image] 
[image] 
而且其实根据推特来看,砍得最狠的是token效率: 
 [image] 
也就是说在改了tokenizer之后,如果用英文的话,Opus4.7要比4.6多输出50%的token!(不过也有人测试了如果用中文的话只会多输出6%的token,这下真全世界都讲中国话了)
 
 
Back to Top