Helix 在 除去Agentic和多模态能力,这一年基模底层真的进步了多少? 中发帖
江山代有大模出,各领风骚数十天。如这个帖子所述,大模型的SOTA变动之快,让人目不暇接。虽说每次更新都有指标上的进步,但是在发布前挪用算力、降智以凸显对比已经成了常规操作。更不用说Gemini 3 Pro/Opus4.7 这种某些方面开倒车的更新了。
于是我挺好奇,现在的最佳模型和一年前的Gemini 2.5 pro-0325 相比,抛开多模态和agentic能力不谈,究竟在智力、知识、上下文保持等基模底层体验上进步了多少。就像身边的小孩子长高很难察觉、许久没见的小孩子长高却能一下子感受到一样,或许这样比较能更清晰的看出真实的进步。
个人认为基模能力的正交指标可以从下面几个维度比较:
智力和推理能力
知识量和输出的知识密度
文风,及文风的刻板程度
上下文保持能力和命令遵从能力
幻觉与谄媚
我发现幻觉率是有明显下降的,其他没有感觉明显变好。因为我平常较少涉及文章写作、智力题、Rol...