阿钖 (@aayang) 在 谁家的模型最能听人话,最会说人话?——对LLM自然语言能力的测试 中发帖
——你猜对了,GPT根本不是人。
前言
最近啊,codex、opus、Gemini…各家都在强推coding模型。
但——LLM毕竟是大语言模型。人类最常用、大模型的训练资料里最多数的也是自然语言。那么,当前各家的最新模型,对中文自然语言的写作和写作题目的意图识别,能力究竟几何?
根据笔者先前的使用体验,A\的模型在自然语言、情感、文笔把控上一直很精妙,deepseek也不差。gemini只能妙手偶得些好词好句,剩下的纯人机——对,就是你,openai。那么,这些模糊的“感觉”是否准确呢?
由此,笔者有了好奇,便设立了两个题目,来考校一下共计19个模型的自然语言意图识别与自然语言写作能力。两题涵盖了非虚构与文学、短文与长文、严谨与发散、克制与表现力等各方面,应该还是有代表性的。
在对比和打分之外,笔者也会给出自己的批注评价,并会附上对应这两个题目的人类作家作品以供对照,大家可以自...