传送申 (@chuansongshen) 在 Deepseek x上传出来的,各位佬友分析下 中发帖
帖子内容:
疑似 DeepSeek V4 技术报告的 benchmark泄露!
图中 的“DeepSeek-V4 技术报告”基准测试(Benchmark)数据,为我们揭示了当前顶尖 AI 大模型的最新竞争格局。从这份涵盖通用能力、推理数学、代码以及智能体(Agent)四大维度的成绩单来看,DeepSeek-V4 展现出了极强的统治力,而大模型的第一梯队也正在经历重新洗牌。
🏆 竞争格局:当前大模型梯队划分
从图表数据中,我们可以清晰地看到五款参评模型的实力分层:
👑 领跑者:DeepSeek-V4在所有 12 项严苛测试中均斩获最高分(State-of-the-Art),实现了跨维度的全面压制。
🥈 最强追赶者:Gemini 3.1 Pro Preview在多项核心指标上紧咬榜首,并在绝大多数测试成绩中超越了 GPT-5.3,是目前这组对比中最具竞争力的对手。
🥉 第三梯队:...