@lueluelue各大 AI 单轮跑一次新高考一卷究竟能拿多少分?(先点评一部分强模型) 中发帖

从 【马上公布结果】佬们觉得哪个AI高考数学肯定能考满分? 以及 新高考数学一卷出炉,测测哪些 AI 有实力 继续讨论 

本次测试为一次性全部发送,看模型能答多少分
叠甲:


问 1: 
为什么不是一个一个题发送? 
答 1: 
因为现在的模型都太强大了,先用这个方式来测试,后续再继续测试,一个一个题发送,写另一个排行榜。另外还可以针对这个排行榜里面做错的题,对各个模型进行多次的询问,取最差结果。 
我 GPT OSS 120b 和 GPT OSS 20b 是用的一个一个题问的方式(新开对话) 
 [clipboard-1780936211666-1]2: 
为什么国产模型只测了Qwen 3.7 Max?为什么国外模型没测 Muse Spark、Grok?为什么 Claude 4.8 Opus 只测了一次? 
答 2: 
测了 Qwen 3.7 Max 是因为千问官网太好了...
 
 
Back to Top