分享好友 资讯首页 频道列表

DeepSeek发布多模态大模型技术报告 创新框架突破空间参照瓶颈

2026-05-01 11:2527470

近日,人工智能领域迎来一项重要进展——DeepSeek在GitHub平台正式开源其多模态大模型,并同步发布技术报告,提出一种突破性推理框架,为解决多模态大语言模型(MLLMs)的空间参照难题提供了新思路。

当前主流多模态大语言模型虽在图像理解、文本生成等任务中表现突出,但其核心推理范式仍依赖链式思维(CoT),主要聚焦于语言层面的逻辑推导。技术报告指出,现有研究多通过提升图像分辨率、优化视觉编码器等技术手段缩小“感知鸿沟”,即增强模型对视觉细节的捕捉能力。然而,DeepSeek团队发现,这类方法未能触及根本问题——自然语言在描述复杂空间关系时存在天然缺陷,导致模型在处理需要精确空间参照的任务时,推理链条容易断裂。

例如,当用户要求模型“找出图片中所有位于红色方块右侧的圆形物体”时,传统模型可能因无法准确解析“右侧”这一空间概念而出现错误。DeepSeek团队认为,这种“参照鸿沟”是制约多模态模型性能的关键瓶颈,亟需从推理机制层面进行创新。

针对这一挑战,DeepSeek提出“基于视觉原语的思考”(Thinking with Visual Primitives)框架。该框架将点、边界框等基础视觉元素从单纯的输入数据升级为推理过程中的“思维单元”,使模型能够直接在思考链路中调用这些空间标记。通过将抽象认知与具体物理坐标绑定,模型获得了类似人类“指代”的能力——既能理解“红色方块”的视觉特征,又能精准定位其空间位置,进而推导出“右侧”的完整范围。

技术报告显示,该框架通过优化模型架构显著提升了视觉标记效率。尽管模型规模紧凑且图像标记预算较低,其在计数和空间推理等基准测试中的表现已与GPT-5.4、Claude-Sonnet-4.6等前沿模型持平。这一成果为开发更高效、可扩展的System-2类多模态智能提供了重要参考。

值得注意的是,DeepSeek此前已上线“识图模式”,该功能与“快速模式”“专家模式”并列,支持对图像中文字、物体、场景等多维度信息的综合理解,标志着其多模态能力从单一OCR识别向复杂空间推理的跨越。此次开源的模型及框架,或将推动多模态技术从“感知智能”向“认知智能”的深层演进。

反对 0
举报 0
收藏 0
打赏 0
评论 0
中国电信词元经营战略:以Token为钥 开启智能时代数字要素运营新篇章
中国电信词元经营战略:以Token为钥 开启智能时代数字要素运营新篇章

0评论2026-05-01911

个人AI智能体定制兴起:500元起的服务是便利新选择还是暗藏风险?
个人AI智能体定制兴起:500元起的服务是便利新选择还是暗藏风险?

0评论2026-05-01694

OpenAI披露“哥布林现象”成因:个性训练奖励意外放大模型语言偏差
OpenAI披露“哥布林现象”成因:个性训练奖励意外放大模型语言偏差

0评论2026-05-011386

刘烈宏:词元驱动AI变革,数据、基建、模式、生态共筑新未来
刘烈宏:词元驱动AI变革,数据、基建、模式、生态共筑新未来

0评论2026-05-01747

别再“瞎搞”了!神州数码“养虾三件套”让企业AI从“尝鲜”走向“真干活”
别再“瞎搞”了!神州数码“养虾三件套”让企业AI从“尝鲜”走向“真干活”

0评论2026-04-23652

星际光年:顶尖高校团队打造灵巧手,双轨战略推进,三月融资近亿
星际光年:顶尖高校团队打造灵巧手,双轨战略推进,三月融资近亿

0评论2026-04-232842

探索黑洞之谜:从事件视界到霍金辐射的宇宙奇旅
探索黑洞之谜:从事件视界到霍金辐射的宇宙奇旅

0评论2026-04-232915

奥特曼回应住宅遭袭,点名批评对手Anthropic
奥特曼回应住宅遭袭,点名批评对手Anthropic

0评论2026-04-232894

消息称特努斯布局AI重组苹果硬件部门,缩短产品开发周期
消息称特努斯布局AI重组苹果硬件部门,缩短产品开发周期

0评论2026-04-23590