@HCPTangHYDeepSeek发布「视觉原语思考」框架,让多模态模型边推理边“指” 中发帖

DeepSeek联合北京大学、清华大学发布论文《Thinking with Visual Primitives》及其开源仓库,提出一种新的多模态推理框架。该框架的核心做法是将空间标记——坐标点和边界框——提升为模型思维链中的**“最小思考单元”**,在推理过程中直接交织使用,使模型在"思考"的同时能够"指向"图像中的具体位置。 


 [image]7项公开基准和4项自建基准的评测中,该模型在计数、空间推理、拓扑推理等维度上达到或超过GPT-5.4、Claude-Sonnet-4.6和Gemini-3-Flash的表现,平均得分77.2%,为所有被测模型中最高。值得关注的是,在迷宫导航和路径追踪两项拓扑推理任务上,该模型分别取得66.9%56.7%的准确率,而其余前沿模型均未超过51%,这表明现有多模态模型在拓扑推理方面仍有很大提升空间。 
 [image] 
论文同时指出了当前的...
 
 
Back to Top