分享好友 资讯首页 频道列表

OpenAI新研究:用稀疏模型解锁大模型“黑箱” 作者多来自Ilya团队

2025-11-17 21:3816700

在人工智能领域,大模型的可解释性一直是备受关注的焦点。近日,OpenAI公布了一项关于训练小模型的新研究,旨在让模型的内部机制更易于人类理解,为提升模型可解释性提供了新的思路。

OpenAI指出,当前ChatGPT背后的语言模型结构复杂,其具体工作原理尚未被完全掌握。此次研究就是为了缩小这一认知差距。研究人员提出的核心思路是训练稀疏模型,这类模型神经元连接少,但神经元数量多,通过简化神经网络结构,使其更易理解。

研究人员认为,虽然推理模型通过思维链展现出的可解释性在短期内有一定价值,能捕捉到模型的“欺骗”等行为,但完全依赖这一特性并不可靠,且随着时间推移可能失效。要更深入地理解模型机制,需对模型计算过程进行完全逆向工程。然而,复杂密集网络中每个神经元与其他数千个神经元相连,且执行不同功能,理解难度极大。因此,训练拥有众多神经元但每个神经元连接少的模型成为研究的关键。

基于这一思路,研究人员以现代语言模型基础架构(类似GPT - 2)为基础,仅做一个小改动——强制将模型大部分权重设为0,从而训练出一个小模型。

有了稀疏模型后,研究人员着手找出模型在各项任务中的“回路”。这里的“回路”指模型精准完成特定任务的最小计算单元,由节点和边组成,其规模通过节点和边数量衡量,论文将回路边数几何平均值作为解释性量化指标。为评估模型可解释性,研究人员设计了一系列简单算法任务,并将每个模型精简到能完成任务的“最小回路”。

以一个Python任务为例,任务要求“hello”必须以单引号结尾,“hello”必须以双引号结尾,模型需根据字符串开头引号类型预测结尾引号并自动补全。得到的回路仅使用5个残差通道、第0层的两个MLP神经元,以及第10层的一个注意力查询键通道和一个值通道。其流程为:先将单、双引号分别编码到不同残差通道;再用MLP层将编码结果转换为两个通道,一个检测任意引号,一个区分单、双引号;接着用注意力机制忽略中间token,找到前一个引号并复制其类型到最后一个token;最后预测匹配的结尾引号。

论文还对变量绑定等更复杂行为进行研究,这些行为的回路虽难以完全解释,但仍能得出相对简单的部分解释以预测模型行为。研究人员还发现,训练更大、更稀疏的模型,能生成功能更强大、回路更简单的模型,这表明该方法有望用于理解更复杂行为。

不过,研究人员也强调,这项工作尚处早期阶段。稀疏模型比前沿模型小很多,且计算过程仍有不少“黑盒”部分。目前稀疏模型训练效率较低。为解决这一问题,研究人员提出两种途径:一是从现有密集模型中提取稀疏回路,而非从头训练;二是开发更高效的模型训练技术以提高可解释性。

反对 0
举报 0
收藏 0
打赏 0
评论 0
日薪50万!「人形机器人第一股」天价招聘首席科学家
日薪50万!「人形机器人第一股」天价招聘首席科学家

0评论2026-04-051385

AI竟有“功能性情绪”?Anthropic研究揭示其背后的复杂心理机制
AI竟有“功能性情绪”?Anthropic研究揭示其背后的复杂心理机制

0评论2026-04-052071

远光软件发布DAP-E平台:AI赋能小微企业,开启智能经营新篇章
远光软件发布DAP-E平台:AI赋能小微企业,开启智能经营新篇章

0评论2026-04-021470

京基智农控股汇博机器人:产业协同与技术互补共拓具身智能新未来
京基智农控股汇博机器人:产业协同与技术互补共拓具身智能新未来

0评论2026-04-022839

润芯微亮相数字经济大会,以AI技术共绘汽车与具身智能新蓝图
润芯微亮相数字经济大会,以AI技术共绘汽车与具身智能新蓝图

0评论2026-03-312267

蚂蚁灵波开源2.71TB大规模RGB-D数据集,助力空间感知研究升级
蚂蚁灵波开源2.71TB大规模RGB-D数据集,助力空间感知研究升级

0评论2026-03-312071

AI赋能环境科学:提效降本精准治理,重塑污染防控新模式
AI赋能环境科学:提效降本精准治理,重塑污染防控新模式

0评论2026-03-311505

吉利旗下沃飞长空完成工商变更:增资扩股换帅 注册资本增至3.6亿
吉利旗下沃飞长空完成工商变更:增资扩股换帅 注册资本增至3.6亿

0评论2026-03-312066

MiniMax高估值引热议:技术驱动与商业落地能否撑起未来?
MiniMax高估值引热议:技术驱动与商业落地能否撑起未来?

0评论2026-03-311986

安全生产管理平台怎么选?苏州同企人工智能科技助力多行业数字化升级
安全生产管理平台怎么选?苏州同企人工智能科技助力多行业数字化升级

0评论2026-03-311965