分享好友 资讯首页 频道列表

清华大学研发DeepPrune技术:为AI推理“瘦身” 开启高效思考新路径

2025-11-13 20:2612260

人工智能在解决复杂问题时,常采用并行推理策略——同时生成多个推理过程,从中选出最优解。然而最新研究发现,这种看似高效的方法存在严重缺陷:超过80%的并行推理最终会得出相同结论,导致大量计算资源被浪费在重复劳动上。这一现象犹如30名学生解答同一道数学题,其中25人提交了几乎相同的解题过程,仅有5人提供了差异化思路。

由清华大学与上海科技大学联合研究团队提出的DeepPrune技术,为解决该问题提供了创新方案。研究团队将AI推理过程比作果树生长,指出传统方法放任所有"枝条"自由生长,而DeepPrune则像经验丰富的园丁,能在枝条发育早期识别出哪些会结出相同果实,从而精准修剪冗余枝条。实验数据显示,该方法可使计算资源消耗减少80%以上,部分场景下甚至达到91.6%的削减率。

研究团队选取DeepSeek-8B、Qwen3-4B等四种先进AI模型进行测试,要求每个模型针对数学和科学问题同时生成16个推理过程。结果显示,GLM-4.5-Air模型生成的推理对中,94.5%得出相同结论;即便是表现最佳的DeepSeek模型,也有76%的推理过程产生重复结果。这种普遍存在的冗余现象,促使研究团队开发专门的"推理相似度判断专家"。

该判断系统的训练过程颇具挑战性。研究团队从数学竞赛题库中选取758个问题,使用特定模型为每个问题生成16个推理路径,最终获得约8万对推理过程比较数据。为解决数据不平衡问题(相同结果样本占80%),团队采用"焦点损失"技术强化模型对困难案例的学习,同时运用"过采样"技术增加少数类样本数量。经过优化,判断系统的准确率达到87.01%,在控制误判率20%的情况下,仍能正确识别81.86%的差异化推理路径。

在实际应用中,研究团队设计了"贪心聚类"在线算法。当新推理过程生成时,系统会将其与现有"文件夹"中的内容进行相似度比对。若相似度超过阈值(设为0.5),则归入相应文件夹;若不匹配,则创建新文件夹。该算法通过限制最大文件夹数量(32个)和随机选取代表性样本(最多10个)进行比对,既保证了判断效率,又避免了过度修剪。最终答案采用多数投票制,从包含最多相似推理的文件夹中选取样本完成推理。

实验验证环节,研究团队在AIME 2024、AIME 2025和GPQA三个竞赛数据集上,对DeepSeek-8B、Qwen3-32B和GPT-OSS-20B三种模型进行测试。与传统"生成512个推理过程后投票"的方法相比,DeepPrune在保持准确率相当的情况下,计算量显著减少。特别是在Qwen3-32B模型处理AIME25问题时,计算量削减91.4%的同时,准确率从80%提升至90%。与基于置信度的早停方法DeepConf相比,DeepPrune在计算量减少和准确性维持方面均表现更优。

技术细节方面,研究团队发现采用"推理步骤对齐"的截取方法(基于"因此""所以"等逻辑标志词)比简单固定长度截取更有效,准确率提升1.45个百分点。消融实验证实,焦点损失与过采样技术的组合使用至关重要,单独应用任何一种技术都无法达到最佳效果。相似度阈值设置为0.5时,系统能在效率提升与答案多样性间取得良好平衡。

尽管DeepPrune展现出显著优势,研究团队也指出其局限性。当前判断系统仅在特定模型推理数据上训练,对差异较大的模型架构适应性有待验证;贪心聚类算法可能因早期相似性判断失误而导致局部最优决策;判断专家自身的计算开销在简单推理任务中占比可能较高;相似度阈值需根据具体任务调整,增加了系统部署复杂度。这些发现为后续研究指明了改进方向。

对于普通用户而言,该技术意味着未来移动设备可能运行更强大的AI助手,在线服务响应速度将显著提升。在科研领域,药物设计、工程优化等需要大量并行推理的任务,将因计算效率提升而加速突破。技术细节可查阅论文编号arXiv:2510.08483v1的完整研究报告。

反对 0
举报 0
收藏 0
打赏 0
评论 0
阿里被曝秘密启动“千问”项目 欲打造个人AI助手对标ChatGPT 公司未确认
阿里被曝秘密启动“千问”项目 欲打造个人AI助手对标ChatGPT 公司未确认

0评论2025-11-132698

天玑9500以超前配置破“性能过剩”迷思,为未来使用体验兜底
天玑9500以超前配置破“性能过剩”迷思,为未来使用体验兜底

0评论2025-11-132146

叮咚买菜2025年Q3业绩出炉:营收利润双增,梁昌霖谈未来聚焦效率与能力
叮咚买菜2025年Q3业绩出炉:营收利润双增,梁昌霖谈未来聚焦效率与能力

0评论2025-11-131463

罗福莉官宣加盟小米MiMo团队!40人合影或暗示小米AGI新方向
罗福莉官宣加盟小米MiMo团队!40人合影或暗示小米AGI新方向

0评论2025-11-132149

特斯拉与沃尔沃大模型获批上线,外企AI服务助力汽车行业智能化升级
特斯拉与沃尔沃大模型获批上线,外企AI服务助力汽车行业智能化升级

0评论2025-11-132177

DeepMind新突破:AlphaProof登Nature,成首个获IMO银牌AI模型
DeepMind新突破:AlphaProof登Nature,成首个获IMO银牌AI模型

0评论2025-11-13908

2025世界互联网大会:阿里CEO吴泳铭畅谈AI发展三阶段 加大投入打造超级AI云
2025世界互联网大会:阿里CEO吴泳铭畅谈AI发展三阶段 加大投入打造超级AI云

0评论2025-11-081030

进博会医疗展区亮点频现:AI与脑机接口赋能,多款创新药械填补治疗空白
进博会医疗展区亮点频现:AI与脑机接口赋能,多款创新药械填补治疗空白

0评论2025-11-081428

AI手机端侧模型崛起:企业竞逐新赛道 移动终端生态悄然生变
AI手机端侧模型崛起:企业竞逐新赛道 移动终端生态悄然生变

0评论2025-11-06768