OpenAI新研究：用稀疏模型解锁大模型“黑箱” 作者多来自Ilya团队_AI_

在人工智能领域，大模型的可解释性一直是备受关注的焦点。近日，OpenAI公布了一项关于训练小模型的新研究，旨在让模型的内部机制更易于人类理解，为提升模型可解释性提供了新的思路。

OpenAI指出，当前ChatGPT背后的语言模型结构复杂，其具体工作原理尚未被完全掌握。此次研究就是为了缩小这一认知差距。研究人员提出的核心思路是训练稀疏模型，这类模型神经元连接少，但神经元数量多，通过简化神经网络结构，使其更易理解。

研究人员认为，虽然推理模型通过思维链展现出的可解释性在短期内有一定价值，能捕捉到模型的“欺骗”等行为，但完全依赖这一特性并不可靠，且随着时间推移可能失效。要更深入地理解模型机制，需对模型计算过程进行完全逆向工程。然而，复杂密集网络中每个神经元与其他数千个神经元相连，且执行不同功能，理解难度极大。因此，训练拥有众多神经元但每个神经元连接少的模型成为研究的关键。

基于这一思路，研究人员以现代语言模型基础架构（类似GPT - 2）为基础，仅做一个小改动——强制将模型大部分权重设为0，从而训练出一个小模型。

有了稀疏模型后，研究人员着手找出模型在各项任务中的“回路”。这里的“回路”指模型精准完成特定任务的最小计算单元，由节点和边组成，其规模通过节点和边数量衡量，论文将回路边数几何平均值作为解释性量化指标。为评估模型可解释性，研究人员设计了一系列简单算法任务，并将每个模型精简到能完成任务的“最小回路”。

以一个Python任务为例，任务要求“hello”必须以单引号结尾，“hello”必须以双引号结尾，模型需根据字符串开头引号类型预测结尾引号并自动补全。得到的回路仅使用5个残差通道、第0层的两个MLP神经元，以及第10层的一个注意力查询键通道和一个值通道。其流程为：先将单、双引号分别编码到不同残差通道；再用MLP层将编码结果转换为两个通道，一个检测任意引号，一个区分单、双引号；接着用注意力机制忽略中间token，找到前一个引号并复制其类型到最后一个token；最后预测匹配的结尾引号。

论文还对变量绑定等更复杂行为进行研究，这些行为的回路虽难以完全解释，但仍能得出相对简单的部分解释以预测模型行为。研究人员还发现，训练更大、更稀疏的模型，能生成功能更强大、回路更简单的模型，这表明该方法有望用于理解更复杂行为。

不过，研究人员也强调，这项工作尚处早期阶段。稀疏模型比前沿模型小很多，且计算过程仍有不少“黑盒”部分。目前稀疏模型训练效率较低。为解决这一问题，研究人员提出两种途径：一是从现有密集模型中提取稀疏回路，而非从头训练；二是开发更高效的模型训练技术以提高可解释性。