阿钖 (@aayang) 在谁家的模型最能听人话，最会说人话？——对LLM自然语言能力的测试中发帖——你猜对了，GPT根本不是人

阿钖 (@aayang) 在谁家的模型最能听人话，最会说人话？——对LLM自然语言能力的测试中发帖

——你猜对了，GPT根本不是人。 
前言
最近啊，codex、opus、Gemini…各家都在强推coding模型。 
但——LLM毕竟是大语言模型。人类最常用、大模型的训练资料里最多数的也是自然语言。那么，当前各家的最新模型，对中文自然语言的写作和写作题目的意图识别，能力究竟几何？ 
根据笔者先前的使用体验，A\的模型在自然语言、情感、文笔把控上一直很精妙，deepseek也不差。gemini只能妙手偶得些好词好句，剩下的纯人机——对，就是你，openai。那么，这些模糊的“感觉”是否准确呢？ 
由此，笔者有了好奇，便设立了两个题目，来考校一下共计19个模型的自然语言意图识别与自然语言写作能力。两题涵盖了非虚构与文学、短文与长文、严谨与发散、克制与表现力等各方面，应该还是有代表性的。 
在对比和打分之外，笔者也会给出自己的批注评价，并会附上对应这两个题目的人类作家作品以供对照，大家可以自...