yjian zhu 在 mimo v2.5pro 和27B模型坐一桌？不要把个人榜单当权威！中发帖最近看到站内有不少朋友在分享并推崇这个大模型榜单，我来批判下，欢迎各位理性交流

yjian zhu 在 mimo v2.5pro 和27B模型坐一桌？不要把个人榜单当权威！中发帖

最近看到站内有不少朋友在分享并推崇这个大模型榜单，我来批判下，欢迎各位理性交流。 
 [image] 
先回顾下这个榜单的基本情况： 



性质 ：个人性质评测，使用滚动更新的私有题库进行长期跟踪。 


侧重点 ：主要测试大模型在逻辑、数学、编程及人类直觉等方面的表现。由于不是全方位测试，主要提供一个观察大模型进化趋势的侧面视角。 


体量 ：题库数量在 60 道左右。 



我的批判: 
1. 题库样本量过小
相比于目前主流的 Humanity’s Last Exam (HLE) 等动辄 2100 道题的大型 Benchmark，60 道的题量在评估全面性和稳定性上存在明显差距。 
2. 测能力变成了“掷硬币”——离谱的得分方差
在仅有 60 道题的盘子里，模型答题甚至会出现 30% 到 40% 的巨大震荡。这意味着模型做这套题的表现，很大程度上等同于“抛硬币盲猜”——运气好蒙对...