分享好友 资讯首页 频道列表

AI模型能力被低估?推理预算成关键,OpenAI专家呼吁重估评测体系

2026-06-11 22:3421130

OpenAI核心研究员Noam Brown近日发表长文,对当前AI模型评估体系提出尖锐批评。他指出,以单一分数衡量模型性能的做法已严重滞后,尤其在推理计算成为行业标配的当下,这种评估方式正在制造巨大认知偏差。GPT-5.5与前代模型的对比数据充分印证了这一观点:当控制推理预算后,新模型在网络安全评估等任务中的表现较前代提升超过200%,而传统基准测试仅显示微弱优势。

行业现行的评估体系正陷入"时间盲区"。Brown通过对比实验揭示,同一模型在30分钟与3小时的推理时间内,任务完成质量存在本质差异。这种差异在前沿模型中尤为显著——强模型在延长推理时间后,性能曲线持续攀升,而弱模型很快触及天花板。以MMLU基准测试为例,当前顶尖模型得分普遍超过88%,分数差异已低于统计误差范围,实际反映的不过是测试噪声。

推理预算的差异正在重塑模型能力图谱。在MRCR v2长文本测试中,GPT-5.5以74.0%的得分碾压前代的36.6%,但这项关键指标从未出现在标准评测报告中。更极端的情况出现在ARC-AGI测试:OpenAI的o3模型单题推理成本高达3万美元,而竞争对手用0.2美元的小模型也取得了24%的准确率。当测试成本相差六个数量级时,排名本身已失去比较价值。

学术界的研究为这种现象提供了量化解释。覆盖率与采样次数呈对数线性关系,意味着推理时间翻倍带来的收益逐渐递减。但最新发现显示,这种递减效应在强模型中显著减弱——它们能在更长的推理周期内持续优化结果。这解释了为何GPT-5.5 Pro通过并行推理链设计,能在遇到难题时自动调用更多计算资源,从而实现性能跃迁。

Brown提出三项改革建议:实验室发布模型时必须公开性能-计算量曲线;基准测试需追踪推理用量或设定预算上限;安全评估框架应将计算资源作为核心变量。他特别强调,现有安全测试仅关注"默认状态"具有严重隐患——国家级攻击者完全可能为单个任务投入千万美元级推理预算,这种场景下的模型行为与常规测试截然不同。

这场评估体系变革正引发连锁反应。ARC-AGI测试已率先采用动态预算机制,要求模型在从1美元到1000万美元的推理预算范围内持续输出结果。但新挑战随之而来:长期评估可能无法通过外推预测,某些危险能力的验证需要让AI运行整整一年,而这个周期已超过多数实验室的模型迭代速度。

行业投入格局的转变印证了这种趋势。2026年全球科技巨头在AI基础设施上的支出预计达7000亿美元,其中相当比例用于提升推理能力。当智能成为可标价的连续函数,模型间的真实差距不再取决于架构创新,而是背后支撑的计算资源。这种转变迫使整个行业重新思考:在无限延伸的推理时间内,AI的能力边界究竟在哪里?

反对 0
举报 0
收藏 0
打赏 0
评论 0
三星携手Lifet推出新服务:Galaxy手机拍照即可AI检测宠物健康状况
三星携手Lifet推出新服务:Galaxy手机拍照即可AI检测宠物健康状况

0评论2026-06-18826

唐菊兴院士谈AI找矿:短期难突破但趋势向前 豫鲁矿业合作前景广阔
唐菊兴院士谈AI找矿:短期难突破但趋势向前 豫鲁矿业合作前景广阔

0评论2026-06-181356

高通骁龙Reality Elite XR芯片登场:AI算力飙升,多维度升级引领XR新体验
高通骁龙Reality Elite XR芯片登场:AI算力飙升,多维度升级引领XR新体验

0评论2026-06-182481

开普勒“机械麒麟”四足机器人亮相:满载近吨级,续航8小时,应用场景丰富
开普勒“机械麒麟”四足机器人亮相:满载近吨级,续航8小时,应用场景丰富

0评论2026-06-18733

5月出口强劲上扬 半导体价格飙升成出口增长核心引擎
5月出口强劲上扬 半导体价格飙升成出口增长核心引擎

0评论2026-06-112364

互联网流量迎历史性拐点:Cloudflare称机器人流量首超人类流量
互联网流量迎历史性拐点:Cloudflare称机器人流量首超人类流量

0评论2026-06-11971

Fable 5自带反蒸馏机制!检测到就降智,误触率高到离谱
Fable 5自带反蒸馏机制!检测到就降智,误触率高到离谱

0评论2026-06-112724

合合信息旗下扫描全能王入局AI教育 推“蜜蜂AI”助力教学效率提升
合合信息旗下扫描全能王入局AI教育 推“蜜蜂AI”助力教学效率提升

0评论2026-06-04691

台积电魏哲家:AI芯片需求激增 未来数年难满足 今年销售额或增超30%
台积电魏哲家:AI芯片需求激增 未来数年难满足 今年销售额或增超30%

0评论2026-06-042816