@VrianCao 在 DeepSeek 新模型 在743K Context时的召回率可能高达85%,注意力有效上下文窗口约为325K Tokens,稳稳的T0水准 中发帖
从DeepSeek新模型网页端有效上下文约为885K Tokens继续讨论:
在 742656 Tokens 的复杂文本大海捞针测试中,DeepSeek新模型的召回率为 14/16 Needles,两根遗失的针位于整个Context的最中间,属于正常情况
即其注意力有效上下文窗口约为325K Tokens