点点点…点娘! (@Guandengle)DeepSeek的新视觉模型基于新的视觉框架,基底模型是v4 flash 中发帖

DeepSeek联合北京大学、清华大学发布论文《Thinking with Visual Primitives》,提出一种新的多模态推理框架。该框架的核心做法是将空间标记——坐标点和边界框——提升为模型思维链中的“最小思考单元”,在推理过程中直接交织使用,使模型在"思考"的同时能够"指向"图像中的具体位置。

当前多模态大语言模型的思维链推理几乎完全在语言空间中进行。业界此前的改进方向集中在通过高分辨率裁剪等手段弥补“感知差距”(即让模型看得更清楚),但论文指出,一个更根本的瓶颈被忽视了——“引用差距”:自然语言天然无法精确、无歧义地指向连续视觉空间中的具体对象。在密集计数、多步空间推演等任务中,模型的语言"思路"会丢失对视觉实体的追踪,导致推理逻辑崩塌并产生级联幻觉。

该模型基于DeepSeek-V4-Flash构建,总参数量284B,推理时激活参数13B。架构上采用了压缩稀疏注意力机...
 
 
Back to Top