分享好友 资讯首页 频道列表

苹果AI研究引争议:模型推理极限还是评估方法有误?

2025-06-14 17:3718460

近期,科技界围绕苹果公司发布的一篇AI研究论文展开了热烈讨论。这篇名为《思维的幻象》的论文,于6月6日问世,迅速引起了专家们的关注与争议。

论文中,苹果公司提出了一项令人瞩目的观点:即便是目前技术最前沿的大型推理模型(LRMs),在应对复杂任务时也会遭遇崩溃。这一论断立即引发了广泛讨论,其中Open Philanthropy的研究员Alex Lawsen尤为活跃,他对苹果的结论提出了详尽的反驳。

争议的焦点集中在苹果论文所提及的一个实验:在处理如汉诺塔问题这样的复杂任务时,即便是最先进的LRMs也会彻底失败。汉诺塔问题,作为一个经典的递归算法难题,要求将一系列大小不同的圆盘从一个柱子移动到另一个柱子上,过程中需遵守严格的规则。

针对苹果的这一发现,Lawsen在其反驳文章《思维的幻象之幻象》中,深入剖析了实验设计的潜在问题。他认为,苹果的研究结果更多地反映了实验设置上的缺陷,而非LRMs推理能力的根本性不足。Lawsen指出,苹果的研究混淆了输出限制与评估设置的问题,导致了对模型推理能力的误判。

为了支撑自己的观点,Lawsen提出了三大核心质疑。首先,他强调苹果忽略了模型在处理复杂任务时的Token预算限制。在处理8盘以上的汉诺塔问题时,一些模型如Anthropic的Claude Opus已接近输出极限,甚至因节省Token而停止输出。

其次,Lawsen指出苹果的“过河”测试中包含无解谜题。例如,当角色数量与船只容量限制不匹配时,模型因拒绝解答而被扣分。这一设置无疑对模型的评估造成了不公平的影响。

最后,Lawsen批评苹果的自动化评估脚本过于僵化。该脚本仅以完整步骤列表为标准,未能有效区分推理失败与输出截断的情况,导致部分策略性输出被错误地判定为失败。

为了验证自己的观点,Lawsen重新设计了汉诺塔测试。他要求模型生成递归Lua函数来打印解法,而非逐一列出所有步骤。这一改进的测试方法取得了令人惊讶的结果:Claude、Gemini和OpenAI的o3模型均能正确生成15盘问题的算法解法,远超苹果报告中所述的“零成功”界限。

基于这些发现,Lawsen得出结论:在去除人为输出限制后,LRMs在处理高复杂任务时展现出了强大的推理能力,至少在算法生成层面是如此。这表明,问题可能并不在于模型本身,而在于评估方法的选择与应用。

反对 0
举报 0
收藏 0
打赏 0
评论 0
工信部:2025年前三季度我国电子信息制造业生产出口效益均向好
工信部:2025年前三季度我国电子信息制造业生产出口效益均向好

0评论2025-10-312670

iOS 26泄密案现“内斗”:被告互推责任,650美元付款成关键争议点
iOS 26泄密案现“内斗”:被告互推责任,650美元付款成关键争议点

0评论2025-10-311222

苹果2025财年Q4营收1024.66亿美元,iPhone17系列助力业绩增长未来可期
苹果2025财年Q4营收1024.66亿美元,iPhone17系列助力业绩增长未来可期

0评论2025-10-311869

华为Mate X7配置曝光:大屏轻薄设计,影像电池全面升级排期11月
华为Mate X7配置曝光:大屏轻薄设计,影像电池全面升级排期11月

0评论2025-10-312737

华为Mate 70 Air海报曝光:圆形镜头+轻薄机身,或月底登场引期待
华为Mate 70 Air海报曝光:圆形镜头+轻薄机身,或月底登场引期待

0评论2025-10-30568

苹果iPhone 18相机控制按钮或简化设计:移除电容层,保留压力感应
苹果iPhone 18相机控制按钮或简化设计:移除电容层,保留压力感应

0评论2025-10-302175

华为擎云以科技温度守护矿工安全,让井下安心“触手可及”
华为擎云以科技温度守护矿工安全,让井下安心“触手可及”

0评论2025-10-29708

一加15与Ace 6系列新机发布 搭载汇顶超声波指纹及智能音频放大器技术
一加15与Ace 6系列新机发布 搭载汇顶超声波指纹及智能音频放大器技术

0评论2025-10-291279

iPhone 18 Pro系列或升级:4800万像素长焦配更大光圈,基础版发布时间有变
iPhone 18 Pro系列或升级:4800万像素长焦配更大光圈,基础版发布时间有变

0评论2025-10-291508

AR眼镜江湖混战:XREAL、影目等“五小龙”与华为小米谁能称霸?
AR眼镜江湖混战:XREAL、影目等“五小龙”与华为小米谁能称霸?

0评论2025-10-291367