OpenAI开源新模型Circuit-Sparsity：小体量高可解释性，AI“黑箱”迎突破_AI_

OpenAI近日开源了一款名为Circuit-Sparsity的新型人工智能模型，其参数量仅0.4B，其中99.9%的权重被设定为零，仅保留0.1%的关键权重。这一创新旨在解决大语言模型（LLM）长期存在的“黑箱”问题，即模型决策过程难以解释、内部逻辑不透明等挑战。

在人工智能快速发展的背景下，大语言模型虽展现出强大的能力，但其内部运作机制始终难以捉摸。例如，在医疗、金融等高风险领域，模型决策的不可解释性成为其广泛应用的主要障碍。OpenAI的研究团队通过训练一种权重稀疏的Transformer模型，强制模型仅使用极少数关键连接，从而构建出内部逻辑清晰、可读的“电路”结构。

研究团队发现，在传统密集模型中，单个神经元往往需要同时处理多个概念，导致特征纠缠和决策混乱。而稀疏模型通过限制神经元之间的连接数量，使每个神经元仅负责特定任务。例如，在处理字符串闭合任务时，模型仅用12个节点就构建了一个清晰的电路，能够准确检测单引号或双引号是否闭合。部分神经元被观察到专门负责检测单引号，另一些则像“计数器”一样追踪列表的嵌套深度。

实验结果显示，稀疏模型的电路规模比密集模型缩小了16倍，这意味着解读模型思维的难度大幅降低。研究团队通过“均值消融”实验验证了这些电路的真实性：移除电路中的关键节点会导致模型性能崩溃，而移除非电路节点则几乎无影响。这一发现表明，稀疏模型中的电路确实是模型执行任务的“核心路径”。

尽管稀疏模型在可解释性方面表现突出，但其计算效率仍存在瓶颈。由于稀疏矩阵运算无法借助硬件加速，其运算速度较密集模型慢100至1000倍。这一限制使得该技术目前难以直接应用于千亿参数级别的大规模模型。为解决这一问题，研究团队提出了“桥梁网络”方案：通过在稀疏模型与密集模型之间插入编码器-解码器对，实现对密集模型的可解释性行为编辑。例如，研究人员可以在稀疏模型上修改某个特征，然后通过桥梁将其映射回密集模型，从而间接影响密集模型的决策过程。

研究团队在技术论文中指出，稀疏模型的性能与稀疏度之间存在权衡关系：在模型规模固定的前提下，提高稀疏度会略微降低模型性能，但能显著增强其可解释性。这一发现为未来设计更透明、更可控的人工智能系统提供了重要参考。

目前，OpenAI已将Circuit-Sparsity模型开源，并提供了详细的训练方法和实验数据。研究团队表示，下一步计划将相关技术扩展至更大规模的模型，同时探索从现有密集模型中提取稀疏电路的方法，以降低训练成本。团队还在研发更高效的可解释性模型训练技术，旨在推动相关技术在实际生产环境中的应用。