清华大学研发DeepPrune技术：为AI推理“瘦身” 开启高效思考新路径_AI_

人工智能在解决复杂问题时，常采用并行推理策略——同时生成多个推理过程，从中选出最优解。然而最新研究发现，这种看似高效的方法存在严重缺陷：超过80%的并行推理最终会得出相同结论，导致大量计算资源被浪费在重复劳动上。这一现象犹如30名学生解答同一道数学题，其中25人提交了几乎相同的解题过程，仅有5人提供了差异化思路。

由清华大学与上海科技大学联合研究团队提出的DeepPrune技术，为解决该问题提供了创新方案。研究团队将AI推理过程比作果树生长，指出传统方法放任所有"枝条"自由生长，而DeepPrune则像经验丰富的园丁，能在枝条发育早期识别出哪些会结出相同果实，从而精准修剪冗余枝条。实验数据显示，该方法可使计算资源消耗减少80%以上，部分场景下甚至达到91.6%的削减率。

研究团队选取DeepSeek-8B、Qwen3-4B等四种先进AI模型进行测试，要求每个模型针对数学和科学问题同时生成16个推理过程。结果显示，GLM-4.5-Air模型生成的推理对中，94.5%得出相同结论；即便是表现最佳的DeepSeek模型，也有76%的推理过程产生重复结果。这种普遍存在的冗余现象，促使研究团队开发专门的"推理相似度判断专家"。

该判断系统的训练过程颇具挑战性。研究团队从数学竞赛题库中选取758个问题，使用特定模型为每个问题生成16个推理路径，最终获得约8万对推理过程比较数据。为解决数据不平衡问题（相同结果样本占80%），团队采用"焦点损失"技术强化模型对困难案例的学习，同时运用"过采样"技术增加少数类样本数量。经过优化，判断系统的准确率达到87.01%，在控制误判率20%的情况下，仍能正确识别81.86%的差异化推理路径。

在实际应用中，研究团队设计了"贪心聚类"在线算法。当新推理过程生成时，系统会将其与现有"文件夹"中的内容进行相似度比对。若相似度超过阈值（设为0.5），则归入相应文件夹；若不匹配，则创建新文件夹。该算法通过限制最大文件夹数量（32个）和随机选取代表性样本（最多10个）进行比对，既保证了判断效率，又避免了过度修剪。最终答案采用多数投票制，从包含最多相似推理的文件夹中选取样本完成推理。

实验验证环节，研究团队在AIME 2024、AIME 2025和GPQA三个竞赛数据集上，对DeepSeek-8B、Qwen3-32B和GPT-OSS-20B三种模型进行测试。与传统"生成512个推理过程后投票"的方法相比，DeepPrune在保持准确率相当的情况下，计算量显著减少。特别是在Qwen3-32B模型处理AIME25问题时，计算量削减91.4%的同时，准确率从80%提升至90%。与基于置信度的早停方法DeepConf相比，DeepPrune在计算量减少和准确性维持方面均表现更优。

技术细节方面，研究团队发现采用"推理步骤对齐"的截取方法（基于"因此""所以"等逻辑标志词）比简单固定长度截取更有效，准确率提升1.45个百分点。消融实验证实，焦点损失与过采样技术的组合使用至关重要，单独应用任何一种技术都无法达到最佳效果。相似度阈值设置为0.5时，系统能在效率提升与答案多样性间取得良好平衡。

尽管DeepPrune展现出显著优势，研究团队也指出其局限性。当前判断系统仅在特定模型推理数据上训练，对差异较大的模型架构适应性有待验证；贪心聚类算法可能因早期相似性判断失误而导致局部最优决策；判断专家自身的计算开销在简单推理任务中占比可能较高；相似度阈值需根据具体任务调整，增加了系统部署复杂度。这些发现为后续研究指明了改进方向。

对于普通用户而言，该技术意味着未来移动设备可能运行更强大的AI助手，在线服务响应速度将显著提升。在科研领域，药物设计、工程优化等需要大量并行推理的任务，将因计算效率提升而加速突破。技术细节可查阅论文编号arXiv:2510.08483v1的完整研究报告。