yjian zhu找到说mimov2.5pro不如27b模型的源头了,这么离谱的榜单也是少见了 中发帖

[image] 
看到过太多人把这个榜单奉为圭臬,说下我的看法,理性交流。 
1. 只有60道题目的逻辑测试
相比较humanity’s last exam(HLE)等前沿benchmark,差距巨大。 
2. 极度反常的think参数差异
同样的grok4.20,开启think前后是8.94 vs 63.98,一个说胡话的倒数第一模型,开启think模式后立刻暴涨, gemini3-flash 前后是32 vs 683. 测能力变成了“掷硬币”——离谱的得分方差
总共就 60 道题的盘子,模型答题居然能出现 30%40% 的巨大震荡!这说明模型做这套题的表现,等同于抛硬币闭眼瞎蒙 。稍微运气好蒙对几题,或者运气差错几题,分数就会产生剧烈跳水。 
4. 有两个mimo-v2.5
可能是没有正确标注 think模式,mimo默认开启thinking参数 
5. 极度反常的mim...
 
 
Back to Top