分享好友 资讯首页 频道列表

DeepSeek“识图模式”大范围上线,以创新框架开启图文交互新体验

2026-05-09 13:0321690

近期,人工智能领域迎来一项重要进展——DeepSeek正式面向用户开放“识图模式”功能。此前,该功能已进行多轮灰度测试,目前测试账号已能普遍看到相关入口,但官方仍标注为“图片理解功能内测中”。这一模式突破了传统文字OCR的局限,实现了对图片内容的深度理解与分析。

在实际体验中,“识图模式”展现出强大的多维度能力。在文物识别场景下,用户上传博物馆拍摄的文物照片后,系统不仅能描述其纹理与材质特征,还能结合历史背景推断出具体年代与风格。例如,某件玉器被准确识别为18世纪清代乾隆时期的“痕都斯坦风格”作品。面对复杂的空间推理题时,该模式通过深度思考机制,在耗时约4分钟后成功解答了立方体拼合类难题,展现出严谨的逻辑推导能力。

针对网络流行文化内容,系统表现出敏锐的“网感”。测试中,它不仅能精准识别表情包中的人物角色——包括从合影中区分现实人物与动漫角色,还能解读动物表情背后的情绪,准确捕捉网民的转发笑点。在生产力场景应用方面,该模式可高效解析技术报告截图,自动提取代码与界面元素,甚至能反向生成可交互的HTML代码,完整还原原始网页的跳转功能。

技术层面,DeepSeek同步公开了其核心框架“Thinking with Visual Primitives”(视觉原语思考)。该框架通过将点、边界框等空间定位元素直接融入推理链条,解决了传统模型在处理密集场景时存在的“指代鸿沟”问题。这种创新机制使模型在推理过程中能像人类一样“边想边指”,显著提升了复杂空间布局的解析能力。运算效率测试显示,处理800×800分辨率图片时,该模型仅消耗约90个tokens,仅为其他主流模型消耗量的十分之一。

尽管取得突破性进展,该功能仍存在明显局限。知识库更新滞后导致识别结果出现偏差,例如将2025年底发布的新款手机误判为旧型号。在处理反直觉图形题目时,系统表现不稳定,长时间深度思考后甚至出现逻辑混乱的情况。当前版本仅支持纯视觉理解,尚未集成图像生成、视频分析等跨模态交互功能,功能边界仍局限于静态图片分析领域。

反对 0
举报 0
收藏 0
打赏 0
评论 0
OpenAI拟推GPT-5.5-Cyber网络安全模型,首批定向开放给专业防护人员
OpenAI拟推GPT-5.5-Cyber网络安全模型,首批定向开放给专业防护人员

0评论2026-05-012192

对话许华哲:家庭机器人赛道新征程,10件事开启智能生活新篇
对话许华哲:家庭机器人赛道新征程,10件事开启智能生活新篇

0评论2026-05-012034

广电总局持续发力!4月清理“AI魔改”违规视频超1.1万条
广电总局持续发力!4月清理“AI魔改”违规视频超1.1万条

0评论2026-05-011785

宇树发布双臂人形机器人:打工机器人正式上岗
宇树发布双臂人形机器人:打工机器人正式上岗

0评论2026-05-012866

《环月地铁》科幻新章:月球运输系统技术集成与星际文明展望
《环月地铁》科幻新章:月球运输系统技术集成与星际文明展望

0评论2026-05-011712

科思创“材料效应”赋能未来:飞行汽车、人形机器人等迎来创新突破
科思创“材料效应”赋能未来:飞行汽车、人形机器人等迎来创新突破

0评论2026-04-231467

北京信息产业协会专家思二勋:AI大模型与智能体驱动金融商业新变革
北京信息产业协会专家思二勋:AI大模型与智能体驱动金融商业新变革

0评论2026-04-232545

荣耀夺冠背后:人形机器人狂飙突进,仍需挤掉“虚火”谋长远
荣耀夺冠背后:人形机器人狂飙突进,仍需挤掉“虚火”谋长远

0评论2026-04-232673

OpenAI推出ChatGPT工作空间智能体:全天候协作,助力团队高效处理复杂任务
OpenAI推出ChatGPT工作空间智能体:全天候协作,助力团队高效处理复杂任务

0评论2026-04-231359