分享好友 资讯首页 频道列表

浙江大学新突破:AI学会“主动转头”观察,复杂场景问答更精准

2026-01-13 14:2528510

当你在房间里寻找丢失的钥匙时,不会固定站在某个位置盯着看,而是会来回走动、弯腰查看、变换观察角度。如今,浙江大学联合海外科研团队开发出一种名为“视角链”的智能技术,让AI系统也能像人类一样主动调整观察视角,在三维场景理解领域取得突破性进展。这项创新成果已发表在国际知名学术平台上,为解决视觉语言模型的空间推理难题提供了全新思路。

传统AI系统处理三维场景时,如同被固定在几个特定窗口的观察者。当询问“冰箱在哪里”时,如果目标物体不在预设视角范围内,系统往往无法给出准确答案。这种局限在复杂室内环境中尤为突出——家具遮挡、物品重叠、空间布局复杂等因素,使得单一视角的信息收集效率大幅下降。研究团队通过实验发现,随着场景复杂度提升,传统方法的性能指标会出现断崖式下跌。

新提出的视角链技术通过模拟人类探索行为,构建了双阶段观察机制。在粗粒度筛选阶段,系统会像经验丰富的导游那样,根据问题内容快速定位最具潜力的观察区域。例如涉及厨房用具的问题会优先激活厨房区域的视角,而书籍相关查询则聚焦书架附近。随后进入精细化调整阶段,AI通过前后移动、左右旋转、上下俯仰等动作,像侦探般逐步逼近关键信息。这种渐进式推理模式使系统能够持续更新认知,每获得新视角都会重新评估观察重点。

技术实现层面,研究团队将抽象观察需求转化为可执行的几何变换指令。系统定义了包含平移、旋转、视角切换在内的标准化动作库,每个动作都对应精确的三维坐标变换矩阵。当AI决定“向右移动观察”时,系统会立即计算位移参数并更新摄像机位置,生成新视角的图像数据。这种设计将复杂空间导航简化为离散动作序列,使AI无需掌握专业机器人学知识即可实现灵活观察。

实验数据充分验证了该技术的有效性。在包含180个真实室内场景的OpenEQA测试集中,四种主流AI模型应用视角链技术后,平均准确率提升11.56%,最高提升达13.62%。在专注物体定位的ScanQA数据集上,新方法在关键指标上刷新纪录,答案与人类标准的一致性评分达到116分,较前最佳模型提升14.5%。更引人注目的是“测试时扩展”特性——随着观察步数从1增加到7,系统平均性能持续提升2.51%,某些模型甚至获得3.73%的额外提升。

这项突破的核心优势在于其零训练成本特性。不同于需要海量数据重新训练的传统方法,视角链技术通过优化观察策略直接提升现有模型性能。消融实验显示,若跳过粗粒度筛选阶段直接进行精细调整,系统性能会下降4.59%,这验证了战略定位对探索效率的关键作用。不过研究团队也指出,在动态变化或极度混乱的环境中,频繁视角切换可能引入噪声,过长探索路径存在效率衰减风险。

在智能家居领域,配备该技术的AI助手能主动寻找用户遗失物品,不再依赖固定位置的摄像头网络。自动驾驶系统可借此技术优化传感器视角,更好识别盲区障碍物和复杂路口状况。工业机器人通过主动观察,能更灵活应对装配线上的位置偏差。虚拟现实应用中,系统可根据用户视线动态调整虚拟信息叠加的精度和范围。

从认知科学角度看,这项研究重新定义了AI的“观察”维度。传统系统作为被动信息接收者,其能力受限于训练数据的覆盖范围。而视角链技术使AI转变为主动探索者,能够根据问题需求动态调整感知策略。这种转变不仅提升信息获取效率,更接近人类“按需观察”的认知模式——先确定大致范围,再聚焦关键细节,最终形成完整理解。

技术实现上,研究团队创造性地将三维场景表示转化为可操作的几何变换。通过标准化动作库和动态停止机制,系统在保证探索效率的同时避免无效重复。这种模块化设计使其具有良好通用性,可轻松适配不同基础模型和应用场景。实验表明,该方法在物体定位、空间推理、情境理解等任务中均表现出色,精确匹配率最高突破51.1%。

该成果为AI发展开辟了新路径。在硬件资源有限的情况下,通过优化推理策略提升性能成为可能。未来研究将聚焦于探索效率优化、动态环境适应、多模态感知融合等方向。随着技术成熟,我们有望看到更多具备主动感知能力的智能系统,它们能像人类一样灵活观察环境,在复杂场景中做出更准确的判断和决策。

反对 0
举报 0
收藏 0
打赏 0
评论 0
使用插线板千万别捆起来:无法散热 容易引发爆燃
使用插线板千万别捆起来:无法散热 容易引发爆燃

0评论2026-03-25784

Epic本周福利来袭!免费领《电工模拟器》及《战舰世界》周年纪念礼包
Epic本周福利来袭!免费领《电工模拟器》及《战舰世界》周年纪念礼包

0评论2026-03-25877

宝马在华召回近18万辆汽车:极端情况下存起火风险
宝马在华召回近18万辆汽车:极端情况下存起火风险

0评论2026-03-25944

石家庄中央空调与空气能服务商怎么选?从这些维度看实力更靠谱
石家庄中央空调与空气能服务商怎么选?从这些维度看实力更靠谱

0评论2026-03-251140

苹果iPhone Fold引入CoE技术:轻薄无折痕可期,强光干扰待解
苹果iPhone Fold引入CoE技术:轻薄无折痕可期,强光干扰待解

0评论2026-03-252718

苏宁易购8元转让四家子公司股权 聚焦主业或减轻债务压力
苏宁易购8元转让四家子公司股权 聚焦主业或减轻债务压力

0评论2026-03-252691

三星Galaxy Z Flip7折叠屏:4.1英寸外屏加持,解锁年轻人高效创意新体验
三星Galaxy Z Flip7折叠屏:4.1英寸外屏加持,解锁年轻人高效创意新体验

0评论2026-03-251594

德兰Y40智能锁:3D人脸掌静脉识别,视频通话高清大屏,时尚高端之选
德兰Y40智能锁:3D人脸掌静脉识别,视频通话高清大屏,时尚高端之选

0评论2026-03-252665