OpenAI披露“哥布林现象”成因：个性训练奖励意外放大模型语言偏差_AI_

4月30日消息，OpenAI近期披露，其GPT-5系列模型在多个版本中出现频繁使用“哥布林（goblin）”“小精灵（gremlin）”等生物隐喻的现象，并通过内部分析还原了这一异常行为的形成机制。

该现象最早在GPT-5.1发布后被明确观察到。用户反馈模型在对话中表现出异常“自来熟”的语言风格，内部排查发现，“goblin”一词在ChatGPT中的使用频率较此前上升175%，“gremlin”上升52%。尽管初期影响有限，但在后续版本中，这类表达逐渐累积并显著增强。

在GPT-5.4阶段，相关用语出现更大幅增长，并呈现明显分布特征：大量集中于“书呆子（Nerdy）”人格模式。该人格仅占整体回复的2.5%，却贡献了66.7%的“哥布林”相关表达。其系统提示强调“俏皮表达”“享受世界的奇异性”，被认为是促发相关语言风格的重要背景。

进一步分析显示，问题核心在于强化学习中的奖励信号。原本用于强化“Nerdy”风格的奖励机制，对包含生物类隐喻的输出给予了更高评分。在审计数据集中，这类输出在76.2%的情况下获得更优奖励，从而在训练过程中被持续放大。

尽管该奖励仅在特定人格条件下应用，但模型在后续训练中出现了明显的“行为迁移”。研究显示，在无“Nerdy”提示的训练数据中，“哥布林”类表达仍以接近比例同步增长。这表明，强化学习获得的语言习惯通过监督微调（SFT）等过程扩散至更广泛场景。

OpenAI指出，这一过程形成了典型的反馈循环：带有特定语言特征的输出因奖励被强化，这些输出随后进入训练数据，再进一步提升模型生成类似表达的倾向。在GPT-5.5的训练数据中，已检索到大量包含“goblin”“gremlin”的样本，同时还扩展出浣熊、巨魔、食人魔、鸽子等一系列类似词汇。

为控制该问题，OpenAI在GPT-5.4发布后于3月中旬移除了“Nerdy”人格，并在后续训练中删除相关奖励信号，同时对包含生物隐喻的训练数据进行过滤。不过，由于GPT-5.5的训练早于问题根因确认，该版本仍表现出明显的相关倾向，需通过额外提示进行抑制。

OpenAI表示，该案例表明，模型行为可能受到细粒度奖励机制的长期影响，并在不同训练阶段发生跨场景泛化。围绕该问题的分析已推动内部建立新的模型行为审计工具，用于更系统地识别与修复类似偏差。（AI普瑞斯编译）

2026协作机器人新趋势：搬运上下料稳根基，涂胶检测成增长新引擎

0评论2026-06-231970

2026人工智能+广电视听创新应用大赛启幕共筑面向东盟AI合作新高地

0评论2026-06-231825

第四届链博会今日在京启幕人工智能专区亮相多领域AI应用精彩纷呈

0评论2026-06-231588

百川医疗大模型M4登顶全球榜单：以精准医疗能力重塑智能诊疗新范式

0评论2026-06-231556

英伟达发布Halos for Robotics首个人工智能安全系统

0评论2026-06-231429

光热储能研究生科研指南：巨星教授揭秘破局同质化与创新之道

0评论2026-06-182302

九识（苏州）智能科技注册资本增至2.13亿聚焦人工智能领域发展

0评论2026-06-182231

捷象灵越获极智嘉战略投资共拓全球托盘自动化市场

0评论2026-06-182339

智能眼镜成首批受益者！高通推出全新个人 AI 设备上市加速计划

0评论2026-06-18795

九章云极AI工厂战略发布：以DCU为尺引领智算产业迈向“价值消费”新时代

0评论2026-06-182096