苹果AI研究引争议：模型推理极限还是评估方法有误？_智能手机_

近期，科技界围绕苹果公司发布的一篇AI研究论文展开了热烈讨论。这篇名为《思维的幻象》的论文，于6月6日问世，迅速引起了专家们的关注与争议。

论文中，苹果公司提出了一项令人瞩目的观点：即便是目前技术最前沿的大型推理模型（LRMs），在应对复杂任务时也会遭遇崩溃。这一论断立即引发了广泛讨论，其中Open Philanthropy的研究员Alex Lawsen尤为活跃，他对苹果的结论提出了详尽的反驳。

争议的焦点集中在苹果论文所提及的一个实验：在处理如汉诺塔问题这样的复杂任务时，即便是最先进的LRMs也会彻底失败。汉诺塔问题，作为一个经典的递归算法难题，要求将一系列大小不同的圆盘从一个柱子移动到另一个柱子上，过程中需遵守严格的规则。

针对苹果的这一发现，Lawsen在其反驳文章《思维的幻象之幻象》中，深入剖析了实验设计的潜在问题。他认为，苹果的研究结果更多地反映了实验设置上的缺陷，而非LRMs推理能力的根本性不足。Lawsen指出，苹果的研究混淆了输出限制与评估设置的问题，导致了对模型推理能力的误判。

为了支撑自己的观点，Lawsen提出了三大核心质疑。首先，他强调苹果忽略了模型在处理复杂任务时的Token预算限制。在处理8盘以上的汉诺塔问题时，一些模型如Anthropic的Claude Opus已接近输出极限，甚至因节省Token而停止输出。

其次，Lawsen指出苹果的“过河”测试中包含无解谜题。例如，当角色数量与船只容量限制不匹配时，模型因拒绝解答而被扣分。这一设置无疑对模型的评估造成了不公平的影响。

最后，Lawsen批评苹果的自动化评估脚本过于僵化。该脚本仅以完整步骤列表为标准，未能有效区分推理失败与输出截断的情况，导致部分策略性输出被错误地判定为失败。

为了验证自己的观点，Lawsen重新设计了汉诺塔测试。他要求模型生成递归Lua函数来打印解法，而非逐一列出所有步骤。这一改进的测试方法取得了令人惊讶的结果：Claude、Gemini和OpenAI的o3模型均能正确生成15盘问题的算法解法，远超苹果报告中所述的“零成功”界限。

基于这些发现，Lawsen得出结论：在去除人为输出限制后，LRMs在处理高复杂任务时展现出了强大的推理能力，至少在算法生成层面是如此。这表明，问题可能并不在于模型本身，而在于评估方法的选择与应用。

我国10家车企利润之和不敌宁德

0评论2026-07-062818

千亿目标压力下阿维塔再冲港股谋破局与增长

0评论2026-07-06737

华为：截至目前，搭载乾崑智驾的车辆已超过 190 万辆

0评论2026-07-062886

三星Galaxy Ring 2智能戒指研发中或将支持iPhone且2027年上线AI健康教练

0评论2026-07-012809

多参数水质检测仪蓝牙传输不稳？常见原因及实用解决策略来啦

0评论2026-07-011428

三星Galaxy Z Fold 8轻量化出击，能否在苹果入局前守住折叠屏优势？

0评论2026-07-012872

摆脱内卷困境：从东京下北泽看如何以独特性重焕街区活力

0评论2026-06-282820

中国移动03星择机发射推动手机直连卫星技术迈向更广民用领域

0评论2026-06-282095

底盘也开始算了：华为途灵平台到底在解决什么？

0评论2026-06-281909