特拉法尔加 罗 (@_joker123)【any的opus4.8测试】红绿色盲通过,🔴糖果测试 中发帖

继 【any】Any上架了opus-4-8【已成功调用】 后,使用了any的claude-opus-4-8 测试了一下几个经典问题。 
测试模型:claude-opus-4.8[1m] 
effort: max 
▶ 
题目1:红绿色盲问题
🟢正确 
 [图片] 
▶ 
题目2:糖果问题
🔴错误 
 [图片] 

更新的opus 4.8 其实有个 effort: ultra code 模式,于是我试了一下这个模式下对于糖果的测试 
输入同样的糖果测试问题,这个effort下 自动启用了下面的工作流(有种大炮打蚊子的感觉) 
● 工作流已在后台启动(9 个代理:5 个独立求解 + 4 个对抗验证)。等待结果。

🔴大炮打蚊子,没打到,依旧29 😇 
 [图片] 
▶ 
本话题测试中耗费token数

欢迎各位佬补充更多问题的测试结果~~🚩
 
 
Back to Top