@impouo 在【无剧透放心食用】《首无》娱乐测试国产大模型的上下文能力V2 中发帖前言

@impouo 在【无剧透放心食用】《首无》娱乐测试国产大模型的上下文能力V2 中发帖

前言
一直想测试下各种大模型在实际场景下的上下文能力。之前尝试用《首无》做了一版，但是存在剧透，测试不全面等问题。这次灵机一动，直接告诉大模型在输出的时候直接对剧透内容进行模糊处理。所有内容都人工二次检查过，无剧透可放心食用（除了末尾的完整压缩包，那个会给出所有的原始html文件和原始prompt）。 
测试方案
我选择了日本小说家三津田信三的推理小说《如首无作祟之物》作为测试。这个《首无》呢，送进各种opencode和kimi code中显示其上下文使用大概是150K左右。我认为是一个比较合适的这样的一个长度，因为目前大部分国产模型所设定的上下文就是200~300K之间，而150K恰好是一个超过100K，接近上限但又没到上限的这样的一个长度。我觉得很多情况下，100K以后的需求其实是很重要，但是又很容易被各种评测和基线忽视掉的，厂商也只会吹上下文有多长，没太大参考价值。 
《首无》简单来...