yjian zhumimo v2.5pro 和27B模型坐一桌?不要把个人榜单当权威! 中发帖

最近看到站内有不少朋友在分享并推崇这个大模型榜单,我来批判下,欢迎各位理性交流。 
 [image] 
先回顾下这个榜单的基本情况: 



性质 :个人性质评测,使用滚动更新的私有题库进行长期跟踪。 


侧重点 :主要测试大模型在逻辑、数学、编程及人类直觉等方面的表现。由于不是全方位测试,主要提供一个观察大模型进化趋势的侧面视角。 


体量 :题库数量在 60 道左右。 



我的批判: 
1. 题库样本量过小
相比于目前主流的 Humanity’s Last Exam (HLE) 等动辄 2100 道题的大型 Benchmark,60 道的题量在评估全面性和稳定性上存在明显差距。 
2. 测能力变成了“掷硬币”——离谱的得分方差
在仅有 60 道题的盘子里,模型答题甚至会出现 30%40% 的巨大震荡。这意味着模型做这套题的表现,很大程度上等同于“抛硬币盲猜”——运气好蒙对...
 
 
Back to Top