@impouo 在 【无剧透放心食用】《首无》娱乐测试国产大模型的上下文能力V2 中发帖
前言
一直想测试下各种大模型在实际场景下的上下文能力。之前尝试用《首无》做了一版,但是存在剧透,测试不全面等问题。这次灵机一动,直接告诉大模型在输出的时候直接对剧透内容进行模糊处理。所有内容都人工二次检查过,无剧透可放心食用(除了末尾的完整压缩包,那个会给出所有的原始html文件和原始prompt)。
测试方案
我选择了日本小说家三津田信三的推理小说《如首无作祟之物》作为测试。这个《首无》呢,送进各种opencode和kimi code中显示其上下文使用大概是150K左右。我认为是一个比较合适的这样的一个长度,因为目前大部分国产模型所设定的上下文就是200~300K之间,而150K恰好是一个超过100K,接近上限但又没到上限的这样的一个长度。我觉得很多情况下,100K以后的需求其实是很重要,但是又很容易被各种评测和基线忽视掉的,厂商也只会吹上下文有多长,没太大参考价值。
《首无》简单来...