@VrianCaoDeepSeek 新模型 在743K Context时的召回率可能高达85%,注意力有效上下文窗口约为325K Tokens,稳稳的T0水准 中发帖

从DeepSeek新模型网页端有效上下文约为885K Tokens继续讨论: 
在 742656 Tokens 的复杂文本大海捞针测试中,DeepSeek新模型的召回率为 14/16 Needles,两根遗失的针位于整个Context的最中间,属于正常情况 
即其注意力有效上下文窗口约为325K Tokens
 
 
Back to Top