@lueluelue 在 各大 AI 单轮跑一次新高考一卷究竟能拿多少分?(先点评一部分强模型) 中发帖
从 【马上公布结果】佬们觉得哪个AI高考数学肯定能考满分? 以及 新高考数学一卷出炉,测测哪些 AI 有实力 继续讨论
本次测试为一次性全部发送,看模型能答多少分
叠甲:
问 1:
为什么不是一个一个题发送?
答 1:
因为现在的模型都太强大了,先用这个方式来测试,后续再继续测试,一个一个题发送,写另一个排行榜。另外还可以针对这个排行榜里面做错的题,对各个模型进行多次的询问,取最差结果。
我 GPT OSS 120b 和 GPT OSS 20b 是用的一个一个题问的方式(新开对话)
[clipboard-1780936211666-1]
问 2:
为什么国产模型只测了Qwen 3.7 Max?为什么国外模型没测 Muse Spark、Grok?为什么 Claude 4.8 Opus 只测了一次?
答 2:
测了 Qwen 3.7 Max 是因为千问官网太好了...