Helix 在除去Agentic和多模态能力，这一年基模底层真的进步了多少？中发帖江山代有大模出，各领风骚数十天

Helix 在除去Agentic和多模态能力，这一年基模底层真的进步了多少？中发帖

江山代有大模出，各领风骚数十天。如这个帖子所述，大模型的SOTA变动之快，让人目不暇接。虽说每次更新都有指标上的进步，但是在发布前挪用算力、降智以凸显对比已经成了常规操作。更不用说Gemini 3 Pro/Opus4.7 这种某些方面开倒车的更新了。 
于是我挺好奇，现在的最佳模型和一年前的Gemini 2.5 pro-0325 相比，抛开多模态和agentic能力不谈，究竟在智力、知识、上下文保持等基模底层体验上进步了多少。就像身边的小孩子长高很难察觉、许久没见的小孩子长高却能一下子感受到一样，或许这样比较能更清晰的看出真实的进步。 
个人认为基模能力的正交指标可以从下面几个维度比较： 

智力和推理能力
知识量和输出的知识密度
文风，及文风的刻板程度
上下文保持能力和命令遵从能力
幻觉与谄媚

我发现幻觉率是有明显下降的，其他没有感觉明显变好。因为我平常较少涉及文章写作、智力题、Rol...