特拉法尔加 罗 (@_joker123) 在 【any的opus4.8测试】红绿色盲通过,🔴糖果测试 中发帖
继 【any】Any上架了opus-4-8【已成功调用】 后,使用了any的claude-opus-4-8 测试了一下几个经典问题。
测试模型:claude-opus-4.8[1m]
effort: max
▶
题目1:红绿色盲问题
🟢正确
[图片]
▶
题目2:糖果问题
🔴错误
[图片]
更新的opus 4.8 其实有个 effort: ultra code 模式,于是我试了一下这个模式下对于糖果的测试
输入同样的糖果测试问题,这个effort下 自动启用了下面的工作流(有种大炮打蚊子的感觉)
● 工作流已在后台启动(9 个代理:5 个独立求解 + 4 个对抗验证)。等待结果。
🔴大炮打蚊子,没打到,依旧29 😇
[图片]
▶
本话题测试中耗费token数
欢迎各位佬补充更多问题的测试结果~~🚩