@Sjzuzub【首测】测完Opus4.8,Opus4.6还是那个那个白月光 中发帖

Claude上线了Opus4.8,于是立刻开始了对话测试,重点考察数理推理能力,包含和其他模型的对比。 
测试条件

Claude家族:官网web对话
Gpt家族(只有5.5 xhigh):官网web对话
D老师:官网api + web对话
彩蛋模型:官网api + web对话

第一轮:测试数学直觉
测试模型:Opus4.8-high(默认配置 + ad thinking)
 [Opus4.8-high] 
这不是脑筋急转弯啊喂!不过还好没上来一刀捅一个朋友 🤣,所以是思维预算没给够?开max试试。 
测试模型:Opus4.8-max
 [Opus4.8-max] 
依旧固执认为是脑筋急转弯,而且一下烧掉好多token.. 但至少是当作正常问题推理了。接下来看看同门的4.6。 
测试模型:Opus4.6-midium(默认配置 + extend thinking)
 [Opus4.6-m...
 
 
Back to Top