AI模型能力被低估？推理预算成关键，OpenAI专家呼吁重估评测体系_AI_

OpenAI核心研究员Noam Brown近日发表长文，对当前AI模型评估体系提出尖锐批评。他指出，以单一分数衡量模型性能的做法已严重滞后，尤其在推理计算成为行业标配的当下，这种评估方式正在制造巨大认知偏差。GPT-5.5与前代模型的对比数据充分印证了这一观点：当控制推理预算后，新模型在网络安全评估等任务中的表现较前代提升超过200%，而传统基准测试仅显示微弱优势。

行业现行的评估体系正陷入"时间盲区"。Brown通过对比实验揭示，同一模型在30分钟与3小时的推理时间内，任务完成质量存在本质差异。这种差异在前沿模型中尤为显著——强模型在延长推理时间后，性能曲线持续攀升，而弱模型很快触及天花板。以MMLU基准测试为例，当前顶尖模型得分普遍超过88%，分数差异已低于统计误差范围，实际反映的不过是测试噪声。

推理预算的差异正在重塑模型能力图谱。在MRCR v2长文本测试中，GPT-5.5以74.0%的得分碾压前代的36.6%，但这项关键指标从未出现在标准评测报告中。更极端的情况出现在ARC-AGI测试：OpenAI的o3模型单题推理成本高达3万美元，而竞争对手用0.2美元的小模型也取得了24%的准确率。当测试成本相差六个数量级时，排名本身已失去比较价值。

学术界的研究为这种现象提供了量化解释。覆盖率与采样次数呈对数线性关系，意味着推理时间翻倍带来的收益逐渐递减。但最新发现显示，这种递减效应在强模型中显著减弱——它们能在更长的推理周期内持续优化结果。这解释了为何GPT-5.5 Pro通过并行推理链设计，能在遇到难题时自动调用更多计算资源，从而实现性能跃迁。

Brown提出三项改革建议：实验室发布模型时必须公开性能-计算量曲线；基准测试需追踪推理用量或设定预算上限；安全评估框架应将计算资源作为核心变量。他特别强调，现有安全测试仅关注"默认状态"具有严重隐患——国家级攻击者完全可能为单个任务投入千万美元级推理预算，这种场景下的模型行为与常规测试截然不同。

这场评估体系变革正引发连锁反应。ARC-AGI测试已率先采用动态预算机制，要求模型在从1美元到1000万美元的推理预算范围内持续输出结果。但新挑战随之而来：长期评估可能无法通过外推预测，某些危险能力的验证需要让AI运行整整一年，而这个周期已超过多数实验室的模型迭代速度。

行业投入格局的转变印证了这种趋势。2026年全球科技巨头在AI基础设施上的支出预计达7000亿美元，其中相当比例用于提升推理能力。当智能成为可标价的连续函数，模型间的真实差距不再取决于架构创新，而是背后支撑的计算资源。这种转变迫使整个行业重新思考：在无限延伸的推理时间内，AI的能力边界究竟在哪里？