分享好友 资讯首页 频道列表

OpenAI新研究:用稀疏模型解锁大模型“黑箱” 作者多来自Ilya团队

2025-11-17 21:3815360

在人工智能领域,大模型的可解释性一直是备受关注的焦点。近日,OpenAI公布了一项关于训练小模型的新研究,旨在让模型的内部机制更易于人类理解,为提升模型可解释性提供了新的思路。

OpenAI指出,当前ChatGPT背后的语言模型结构复杂,其具体工作原理尚未被完全掌握。此次研究就是为了缩小这一认知差距。研究人员提出的核心思路是训练稀疏模型,这类模型神经元连接少,但神经元数量多,通过简化神经网络结构,使其更易理解。

研究人员认为,虽然推理模型通过思维链展现出的可解释性在短期内有一定价值,能捕捉到模型的“欺骗”等行为,但完全依赖这一特性并不可靠,且随着时间推移可能失效。要更深入地理解模型机制,需对模型计算过程进行完全逆向工程。然而,复杂密集网络中每个神经元与其他数千个神经元相连,且执行不同功能,理解难度极大。因此,训练拥有众多神经元但每个神经元连接少的模型成为研究的关键。

基于这一思路,研究人员以现代语言模型基础架构(类似GPT - 2)为基础,仅做一个小改动——强制将模型大部分权重设为0,从而训练出一个小模型。

有了稀疏模型后,研究人员着手找出模型在各项任务中的“回路”。这里的“回路”指模型精准完成特定任务的最小计算单元,由节点和边组成,其规模通过节点和边数量衡量,论文将回路边数几何平均值作为解释性量化指标。为评估模型可解释性,研究人员设计了一系列简单算法任务,并将每个模型精简到能完成任务的“最小回路”。

以一个Python任务为例,任务要求“hello”必须以单引号结尾,“hello”必须以双引号结尾,模型需根据字符串开头引号类型预测结尾引号并自动补全。得到的回路仅使用5个残差通道、第0层的两个MLP神经元,以及第10层的一个注意力查询键通道和一个值通道。其流程为:先将单、双引号分别编码到不同残差通道;再用MLP层将编码结果转换为两个通道,一个检测任意引号,一个区分单、双引号;接着用注意力机制忽略中间token,找到前一个引号并复制其类型到最后一个token;最后预测匹配的结尾引号。

论文还对变量绑定等更复杂行为进行研究,这些行为的回路虽难以完全解释,但仍能得出相对简单的部分解释以预测模型行为。研究人员还发现,训练更大、更稀疏的模型,能生成功能更强大、回路更简单的模型,这表明该方法有望用于理解更复杂行为。

不过,研究人员也强调,这项工作尚处早期阶段。稀疏模型比前沿模型小很多,且计算过程仍有不少“黑盒”部分。目前稀疏模型训练效率较低。为解决这一问题,研究人员提出两种途径:一是从现有密集模型中提取稀疏回路,而非从头训练;二是开发更高效的模型训练技术以提高可解释性。

反对 0
举报 0
收藏 0
打赏 0
评论 0
阿里千问App公测上线,以开源模型为基剑指全球AI to C市场
阿里千问App公测上线,以开源模型为基剑指全球AI to C市场

0评论2025-11-171316

OpenAI发布GPT-5.1:沟通更自然有温度,付费用户可先体验
OpenAI发布GPT-5.1:沟通更自然有温度,付费用户可先体验

0评论2025-11-131627

OpenAI推出GPT-5.1系列:ChatGPT更智能,对话体验升级且风格更多样
OpenAI推出GPT-5.1系列:ChatGPT更智能,对话体验升级且风格更多样

0评论2025-11-13683

原DeepSeek核心成员罗福莉官宣加入小米MiMo团队 疑将发力世界模型与具身智能领域
原DeepSeek核心成员罗福莉官宣加入小米MiMo团队 疑将发力世界模型与具身智能领域

0评论2025-11-132056

AI时代人才评估转型:聚焦能力矩阵,告别“一考定终身”模式
AI时代人才评估转型:聚焦能力矩阵,告别“一考定终身”模式

0评论2025-11-13712

Meta豪掷超10亿美元于威斯康星州建数据中心,为AI“超级智能”目标提前布局算力
Meta豪掷超10亿美元于威斯康星州建数据中心,为AI“超级智能”目标提前布局算力

0评论2025-11-131917

亿纬锂能刘金成:动力电池转向“好不好”,深挖价值突破瓶颈未来可期
亿纬锂能刘金成:动力电池转向“好不好”,深挖价值突破瓶颈未来可期

0评论2025-11-131212

巴菲特旗下公司紧急辟谣:YouTube上“巴菲特评论视频”系AI伪造,勿轻信
巴菲特旗下公司紧急辟谣:YouTube上“巴菲特评论视频”系AI伪造,勿轻信

0评论2025-11-081675

吴泳铭乌镇峰会发声:阿里建超大规模AI设施,赋能全球开发者
吴泳铭乌镇峰会发声:阿里建超大规模AI设施,赋能全球开发者

0评论2025-11-08580

英伟达GB300催生液冷新机遇,银轮股份凭技术优势抢跑算力赛道
英伟达GB300催生液冷新机遇,银轮股份凭技术优势抢跑算力赛道

0评论2025-11-082327