分享好友 资讯首页 频道列表

DeepSeek发布多模态大模型技术报告 创新框架突破空间参照瓶颈

2026-05-01 11:2528660

近日,人工智能领域迎来一项重要进展——DeepSeek在GitHub平台正式开源其多模态大模型,并同步发布技术报告,提出一种突破性推理框架,为解决多模态大语言模型(MLLMs)的空间参照难题提供了新思路。

当前主流多模态大语言模型虽在图像理解、文本生成等任务中表现突出,但其核心推理范式仍依赖链式思维(CoT),主要聚焦于语言层面的逻辑推导。技术报告指出,现有研究多通过提升图像分辨率、优化视觉编码器等技术手段缩小“感知鸿沟”,即增强模型对视觉细节的捕捉能力。然而,DeepSeek团队发现,这类方法未能触及根本问题——自然语言在描述复杂空间关系时存在天然缺陷,导致模型在处理需要精确空间参照的任务时,推理链条容易断裂。

例如,当用户要求模型“找出图片中所有位于红色方块右侧的圆形物体”时,传统模型可能因无法准确解析“右侧”这一空间概念而出现错误。DeepSeek团队认为,这种“参照鸿沟”是制约多模态模型性能的关键瓶颈,亟需从推理机制层面进行创新。

针对这一挑战,DeepSeek提出“基于视觉原语的思考”(Thinking with Visual Primitives)框架。该框架将点、边界框等基础视觉元素从单纯的输入数据升级为推理过程中的“思维单元”,使模型能够直接在思考链路中调用这些空间标记。通过将抽象认知与具体物理坐标绑定,模型获得了类似人类“指代”的能力——既能理解“红色方块”的视觉特征,又能精准定位其空间位置,进而推导出“右侧”的完整范围。

技术报告显示,该框架通过优化模型架构显著提升了视觉标记效率。尽管模型规模紧凑且图像标记预算较低,其在计数和空间推理等基准测试中的表现已与GPT-5.4、Claude-Sonnet-4.6等前沿模型持平。这一成果为开发更高效、可扩展的System-2类多模态智能提供了重要参考。

值得注意的是,DeepSeek此前已上线“识图模式”,该功能与“快速模式”“专家模式”并列,支持对图像中文字、物体、场景等多维度信息的综合理解,标志着其多模态能力从单一OCR识别向复杂空间推理的跨越。此次开源的模型及框架,或将推动多模态技术从“感知智能”向“认知智能”的深层演进。

反对 0
举报 0
收藏 0
打赏 0
评论 0
2026协作机器人新趋势:搬运上下料稳根基,涂胶检测成增长新引擎
2026协作机器人新趋势:搬运上下料稳根基,涂胶检测成增长新引擎

0评论2026-06-231969

2026人工智能+广电视听创新应用大赛启幕 共筑面向东盟AI合作新高地
2026人工智能+广电视听创新应用大赛启幕 共筑面向东盟AI合作新高地

0评论2026-06-231825

第四届链博会今日在京启幕 人工智能专区亮相 多领域AI应用精彩纷呈
第四届链博会今日在京启幕 人工智能专区亮相 多领域AI应用精彩纷呈

0评论2026-06-231588

百川医疗大模型M4登顶全球榜单:以精准医疗能力重塑智能诊疗新范式
百川医疗大模型M4登顶全球榜单:以精准医疗能力重塑智能诊疗新范式

0评论2026-06-231556

英伟达发布Halos for Robotics首个人工智能安全系统
英伟达发布Halos for Robotics首个人工智能安全系统

0评论2026-06-231428

光热储能研究生科研指南:巨星教授揭秘破局同质化与创新之道
光热储能研究生科研指南:巨星教授揭秘破局同质化与创新之道

0评论2026-06-182302

九识(苏州)智能科技注册资本增至2.13亿 聚焦人工智能领域发展
九识(苏州)智能科技注册资本增至2.13亿 聚焦人工智能领域发展

0评论2026-06-182230

捷象灵越获极智嘉战略投资 共拓全球托盘自动化市场
捷象灵越获极智嘉战略投资 共拓全球托盘自动化市场

0评论2026-06-182339

智能眼镜成首批受益者!高通推出全新个人 AI 设备上市加速计划
智能眼镜成首批受益者!高通推出全新个人 AI 设备上市加速计划

0评论2026-06-18795

九章云极AI工厂战略发布:以DCU为尺 引领智算产业迈向“价值消费”新时代
九章云极AI工厂战略发布:以DCU为尺 引领智算产业迈向“价值消费”新时代

0评论2026-06-182096