分享好友 资讯首页 频道列表

OpenAI披露“哥布林现象”成因:个性训练奖励意外放大模型语言偏差

2026-05-01 11:2514640

4月30日消息,OpenAI近期披露,其GPT-5系列模型在多个版本中出现频繁使用“哥布林(goblin)”“小精灵(gremlin)”等生物隐喻的现象,并通过内部分析还原了这一异常行为的形成机制。

该现象最早在GPT-5.1发布后被明确观察到。用户反馈模型在对话中表现出异常“自来熟”的语言风格,内部排查发现,“goblin”一词在ChatGPT中的使用频率较此前上升175%,“gremlin”上升52%。尽管初期影响有限,但在后续版本中,这类表达逐渐累积并显著增强。

在GPT-5.4阶段,相关用语出现更大幅增长,并呈现明显分布特征:大量集中于“书呆子(Nerdy)”人格模式。该人格仅占整体回复的2.5%,却贡献了66.7%的“哥布林”相关表达。其系统提示强调“俏皮表达”“享受世界的奇异性”,被认为是促发相关语言风格的重要背景。

进一步分析显示,问题核心在于强化学习中的奖励信号。原本用于强化“Nerdy”风格的奖励机制,对包含生物类隐喻的输出给予了更高评分。在审计数据集中,这类输出在76.2%的情况下获得更优奖励,从而在训练过程中被持续放大。

尽管该奖励仅在特定人格条件下应用,但模型在后续训练中出现了明显的“行为迁移”。研究显示,在无“Nerdy”提示的训练数据中,“哥布林”类表达仍以接近比例同步增长。这表明,强化学习获得的语言习惯通过监督微调(SFT)等过程扩散至更广泛场景。

OpenAI指出,这一过程形成了典型的反馈循环:带有特定语言特征的输出因奖励被强化,这些输出随后进入训练数据,再进一步提升模型生成类似表达的倾向。在GPT-5.5的训练数据中,已检索到大量包含“goblin”“gremlin”的样本,同时还扩展出浣熊、巨魔、食人魔、鸽子等一系列类似词汇。

为控制该问题,OpenAI在GPT-5.4发布后于3月中旬移除了“Nerdy”人格,并在后续训练中删除相关奖励信号,同时对包含生物隐喻的训练数据进行过滤。不过,由于GPT-5.5的训练早于问题根因确认,该版本仍表现出明显的相关倾向,需通过额外提示进行抑制。

OpenAI表示,该案例表明,模型行为可能受到细粒度奖励机制的长期影响,并在不同训练阶段发生跨场景泛化。围绕该问题的分析已推动内部建立新的模型行为审计工具,用于更系统地识别与修复类似偏差。(AI普瑞斯编译)

反对 0
举报 0
收藏 0
打赏 0
评论 0
2026协作机器人新趋势:搬运上下料稳根基,涂胶检测成增长新引擎
2026协作机器人新趋势:搬运上下料稳根基,涂胶检测成增长新引擎

0评论2026-06-231970

2026人工智能+广电视听创新应用大赛启幕 共筑面向东盟AI合作新高地
2026人工智能+广电视听创新应用大赛启幕 共筑面向东盟AI合作新高地

0评论2026-06-231825

第四届链博会今日在京启幕 人工智能专区亮相 多领域AI应用精彩纷呈
第四届链博会今日在京启幕 人工智能专区亮相 多领域AI应用精彩纷呈

0评论2026-06-231588

百川医疗大模型M4登顶全球榜单:以精准医疗能力重塑智能诊疗新范式
百川医疗大模型M4登顶全球榜单:以精准医疗能力重塑智能诊疗新范式

0评论2026-06-231556

英伟达发布Halos for Robotics首个人工智能安全系统
英伟达发布Halos for Robotics首个人工智能安全系统

0评论2026-06-231429

光热储能研究生科研指南:巨星教授揭秘破局同质化与创新之道
光热储能研究生科研指南:巨星教授揭秘破局同质化与创新之道

0评论2026-06-182302

九识(苏州)智能科技注册资本增至2.13亿 聚焦人工智能领域发展
九识(苏州)智能科技注册资本增至2.13亿 聚焦人工智能领域发展

0评论2026-06-182231

捷象灵越获极智嘉战略投资 共拓全球托盘自动化市场
捷象灵越获极智嘉战略投资 共拓全球托盘自动化市场

0评论2026-06-182339

智能眼镜成首批受益者!高通推出全新个人 AI 设备上市加速计划
智能眼镜成首批受益者!高通推出全新个人 AI 设备上市加速计划

0评论2026-06-18795

九章云极AI工厂战略发布:以DCU为尺 引领智算产业迈向“价值消费”新时代
九章云极AI工厂战略发布:以DCU为尺 引领智算产业迈向“价值消费”新时代

0评论2026-06-182096