点点点…点娘！ (@Guandengle) 在 DeepSeek的新视觉模型基于新的视觉框架，基底模型是v4 flash 中发帖DeepSeek联合北京大学、清华大学发布论文《Thinking with Visual Primitives》，提出一种新的多模态推理框架

点点点…点娘！ (@Guandengle) 在 DeepSeek的新视觉模型基于新的视觉框架，基底模型是v4 flash 中发帖

DeepSeek联合北京大学、清华大学发布论文《Thinking with Visual Primitives》，提出一种新的多模态推理框架。该框架的核心做法是将空间标记——坐标点和边界框——提升为模型思维链中的“最小思考单元”，在推理过程中直接交织使用，使模型在"思考"的同时能够"指向"图像中的具体位置。

当前多模态大语言模型的思维链推理几乎完全在语言空间中进行。业界此前的改进方向集中在通过高分辨率裁剪等手段弥补“感知差距”（即让模型看得更清楚），但论文指出，一个更根本的瓶颈被忽视了——“引用差距”：自然语言天然无法精确、无歧义地指向连续视觉空间中的具体对象。在密集计数、多步空间推演等任务中，模型的语言"思路"会丢失对视觉实体的追踪，导致推理逻辑崩塌并产生级联幻觉。

该模型基于DeepSeek-V4-Flash构建，总参数量284B，推理时激活参数13B。架构上采用了压缩稀疏注意力机...