DeepSeek“识图模式”大范围上线，以创新框架开启图文交互新体验_AI_

近期，人工智能领域迎来一项重要进展——DeepSeek正式面向用户开放“识图模式”功能。此前，该功能已进行多轮灰度测试，目前测试账号已能普遍看到相关入口，但官方仍标注为“图片理解功能内测中”。这一模式突破了传统文字OCR的局限，实现了对图片内容的深度理解与分析。

在实际体验中，“识图模式”展现出强大的多维度能力。在文物识别场景下，用户上传博物馆拍摄的文物照片后，系统不仅能描述其纹理与材质特征，还能结合历史背景推断出具体年代与风格。例如，某件玉器被准确识别为18世纪清代乾隆时期的“痕都斯坦风格”作品。面对复杂的空间推理题时，该模式通过深度思考机制，在耗时约4分钟后成功解答了立方体拼合类难题，展现出严谨的逻辑推导能力。

针对网络流行文化内容，系统表现出敏锐的“网感”。测试中，它不仅能精准识别表情包中的人物角色——包括从合影中区分现实人物与动漫角色，还能解读动物表情背后的情绪，准确捕捉网民的转发笑点。在生产力场景应用方面，该模式可高效解析技术报告截图，自动提取代码与界面元素，甚至能反向生成可交互的HTML代码，完整还原原始网页的跳转功能。

技术层面，DeepSeek同步公开了其核心框架“Thinking with Visual Primitives”（视觉原语思考）。该框架通过将点、边界框等空间定位元素直接融入推理链条，解决了传统模型在处理密集场景时存在的“指代鸿沟”问题。这种创新机制使模型在推理过程中能像人类一样“边想边指”，显著提升了复杂空间布局的解析能力。运算效率测试显示，处理800×800分辨率图片时，该模型仅消耗约90个tokens，仅为其他主流模型消耗量的十分之一。

尽管取得突破性进展，该功能仍存在明显局限。知识库更新滞后导致识别结果出现偏差，例如将2025年底发布的新款手机误判为旧型号。在处理反直觉图形题目时，系统表现不稳定，长时间深度思考后甚至出现逻辑混乱的情况。当前版本仅支持纯视觉理解，尚未集成图像生成、视频分析等跨模态交互功能，功能边界仍局限于静态图片分析领域。