DeepSeek发布多模态大模型技术报告创新框架突破空间参照瓶颈_AI_

近日，人工智能领域迎来一项重要进展——DeepSeek在GitHub平台正式开源其多模态大模型，并同步发布技术报告，提出一种突破性推理框架，为解决多模态大语言模型（MLLMs）的空间参照难题提供了新思路。

当前主流多模态大语言模型虽在图像理解、文本生成等任务中表现突出，但其核心推理范式仍依赖链式思维（CoT），主要聚焦于语言层面的逻辑推导。技术报告指出，现有研究多通过提升图像分辨率、优化视觉编码器等技术手段缩小“感知鸿沟”，即增强模型对视觉细节的捕捉能力。然而，DeepSeek团队发现，这类方法未能触及根本问题——自然语言在描述复杂空间关系时存在天然缺陷，导致模型在处理需要精确空间参照的任务时，推理链条容易断裂。

例如，当用户要求模型“找出图片中所有位于红色方块右侧的圆形物体”时，传统模型可能因无法准确解析“右侧”这一空间概念而出现错误。DeepSeek团队认为，这种“参照鸿沟”是制约多模态模型性能的关键瓶颈，亟需从推理机制层面进行创新。

针对这一挑战，DeepSeek提出“基于视觉原语的思考”（Thinking with Visual Primitives）框架。该框架将点、边界框等基础视觉元素从单纯的输入数据升级为推理过程中的“思维单元”，使模型能够直接在思考链路中调用这些空间标记。通过将抽象认知与具体物理坐标绑定，模型获得了类似人类“指代”的能力——既能理解“红色方块”的视觉特征，又能精准定位其空间位置，进而推导出“右侧”的完整范围。

技术报告显示，该框架通过优化模型架构显著提升了视觉标记效率。尽管模型规模紧凑且图像标记预算较低，其在计数和空间推理等基准测试中的表现已与GPT-5.4、Claude-Sonnet-4.6等前沿模型持平。这一成果为开发更高效、可扩展的System-2类多模态智能提供了重要参考。

值得注意的是，DeepSeek此前已上线“识图模式”，该功能与“快速模式”“专家模式”并列，支持对图像中文字、物体、场景等多维度信息的综合理解，标志着其多模态能力从单一OCR识别向复杂空间推理的跨越。此次开源的模型及框架，或将推动多模态技术从“感知智能”向“认知智能”的深层演进。