@yeluo001大海捞针测试模型上下文,这种方法是否存在严重的局限性? 中发帖

用的grok-4.20和grok-4.30测试。 
用于大海捞针的文本是codex生成的,实际大小4668kb,估算token量1.5m,上传到grok,测试大海捞针问题,都能准确的答对。 
但是我上传一部百万字小说,3047kb ,openai在线估算token是0.89m,问grok里面某个配角和主角的关系,要求不联网搜索,结果第一次直接瞎编了人物关系,后续强调禁止编造,试了两个模型,5次全都告诉我不存在这个配角。 
从大海捞针的情况来看,上下文确实没被阉割,但从实际上来说,这个上下文并不能算有效上下文。
 
 
Back to Top