yjian zhu 在找到说mimov2.5pro不如27b模型的源头了，这么离谱的榜单也是少见了中发帖[image]

yjian zhu 在找到说mimov2.5pro不如27b模型的源头了，这么离谱的榜单也是少见了中发帖

[image] 
看到过太多人把这个榜单奉为圭臬，说下我的看法，理性交流。 
1. 只有60道题目的逻辑测试
相比较humanity’s last exam(HLE)等前沿benchmark，差距巨大。 
2. 极度反常的think参数差异
同样的grok4.20，开启think前后是8.94 vs 63.98,一个说胡话的倒数第一模型，开启think模式后立刻暴涨, gemini3-flash 前后是32 vs 68。 
3. 测能力变成了“掷硬币”——离谱的得分方差
总共就 60 道题的盘子，模型答题居然能出现 30% 到 40% 的巨大震荡！这说明模型做这套题的表现，等同于抛硬币闭眼瞎蒙 。稍微运气好蒙对几题，或者运气差错几题，分数就会产生剧烈跳水。 
4. 有两个mimo-v2.5
可能是没有正确标注 think模式，mimo默认开启thinking参数 
5. 极度反常的mim...