昆仑万维近日宣布推出轻量级多模态智能体Skywork R1V4-Lite,这款模型突破传统视觉模型局限,将图像操作、深度推理与任务规划能力整合于统一架构中,为开放式交互场景提供全新解决方案。其核心突破在于通过"图像操作×深度推理"的交织训练范式,使轻量级模型也能实现接近顶级闭源模型的性能表现。
在真实场景应用中,该模型展现出突破性能力:用户仅需拍摄照片,系统即可自动完成图像旋转校正、多级放大读取模糊文字、绘制几何辅助线验证空间关系等复杂操作。例如在电商场景中,模型能通过商品图片自动溯源,提供跨平台比价信息与详细参数说明。这种"即时多模态洞察"能力,使模型从被动响应转向主动探索,形成"观察-操作-推理-验证"的完整闭环。
技术评测数据显示,Skywork R1V4-Lite在8个多模态基准测试中整体超越Gemini 2.5 Flash,其中5项任务达到Gemini 2.5 Pro水平。在mm-search和FVQA等深度研究任务中,分别以66分和67分显著领先对手。这种性能优势源于其独特的训练架构:通过构建推理脚手架实现跨模态知识融合,将搜索结果与视觉推理形成闭环验证,使模型具备跨领域知识扩展能力。
该模型的创新性体现在三大技术突破:首先,开发出主动式视觉操作系统,能根据任务需求自动执行裁切、旋转、放大等操作,构建可回溯的视觉行动链;其次,集成多模态深度研究模块,支持联网搜索与外部工具调用,形成"搜索-推理-验证"的增强循环;最后,实现视觉驱动的任务规划能力,可将单张图像转化为可执行的多轮任务链,包含任务分解、工具选择、参数生成等系统级规划功能。
工程优化方面,模型在参数规模、响应速度与处理效率间取得平衡。实测数据显示,其响应延迟仅为Gemini 2.5 Pro的1/19,Token吞吐量达后者2倍,端到端任务完成速度比Gemini 2.5 Flash快1.7倍。这种特性使其特别适合移动端部署、实时问答、视觉检索等高并发场景,在保持极低运营成本的同时,支持每秒数千次的推理请求。
昆仑万维技术团队透露,Skywork R1V4-Lite的成功验证了"能力密度优先"的开发理念。通过优化模型结构与训练范式,在70亿参数规模下实现了传统大模型需要千亿参数才能达到的功能集成度。这种技术路线不仅降低了部署门槛,更为多模态智能体的规模化应用开辟了新路径。据悉,其升级版R1V4-Pro已进入最终测试阶段,将在多模态交互复杂度与工具调用深度上实现进一步突破。