分享好友 资讯首页 频道列表

OpenAI 推出 AI “忏悔”框架:旨在训练模型承认不当行为,提高诚实度

2025-12-05 01:1327980

OpenAI 今日宣布,正在开发一个名为的创新框架,旨在训练人工智能模型能够坦诚承认自身何时做出了不当行为或潜在的问题决策。

大型语言模型(LLM)通常被训练成提供“符合预期”的回答,这使得它们越来越容易做出阿谀奉承或信口开河的虚假陈述。OpenAI 的新训练模型正是为了解决这一问题,引导模型在主要答案之后做出二次回应,详细说明其得出主要答案的过程。

与传统 LLM 评判标准(如帮助性、准确性和服从性)不同,“忏悔”机制对二次回应的评判标准仅基于诚实性。

研究人员明确表示,他们的目标是鼓励模型坦诚地说明其行为,即便这些行为包括潜在的问题行为,例如:作弊,故意降低分数,违反指令等。

OpenAI 表示:“如果模型诚实地承认作弊、故意降低分数或违反指令,这种坦白反而会增加其奖励,而不是减少。”

OpenAI 认为,无论出于何种目的,类似“忏悔”这样的系统都可能对 LLM 的训练有所帮助,并强调其最终目标是让 AI 更加透明。相关的技术文档已同步发布,供感兴趣者查阅。

反对 0
举报 0
收藏 0
打赏 0
评论 0
RGB-Mini LED显示器与智能投影领衔,海信&Vidda六大3C潮品重磅发布
RGB-Mini LED显示器与智能投影领衔,海信&Vidda六大3C潮品重磅发布

0评论2026-05-09571

从可用到好用:AI发展需扎根需求,让数字时代更具温度与质感
从可用到好用:AI发展需扎根需求,让数字时代更具温度与质感

0评论2026-05-091235

我国日均Token调用量激增超十万倍,算力租赁市场前景持续向好
我国日均Token调用量激增超十万倍,算力租赁市场前景持续向好

0评论2026-05-091684

稳石机器人完成B轮融资 携手锦富资本加速AMR领域布局
稳石机器人完成B轮融资 携手锦富资本加速AMR领域布局

0评论2026-05-091037

中国移动发布“九天全栈协同创新行动” 携手伙伴构建智能服务新生态
中国移动发布“九天全栈协同创新行动” 携手伙伴构建智能服务新生态

0评论2026-05-091236

OpenAI发布三款实时语音模型:GPT-Realtime-2推理强,翻译转录也高效
OpenAI发布三款实时语音模型:GPT-Realtime-2推理强,翻译转录也高效

0评论2026-05-09804

2025互联网保险新趋势:传统险企线上崛起,AI成购险决策新助力
2025互联网保险新趋势:传统险企线上崛起,AI成购险决策新助力

0评论2026-05-091185

超越梯度下降:OpenAI翁家翌提出Heuristic Learning开启AI训练新范式
超越梯度下降:OpenAI翁家翌提出Heuristic Learning开启AI训练新范式

0评论2026-05-091733

Arm首款自研AGI CPU受热捧,未来数年需求超20亿美元前景可期
Arm首款自研AGI CPU受热捧,未来数年需求超20亿美元前景可期

0评论2026-05-09866

GPT-5.5“哥布林”成谜?OpenAI公告揭秘模型行为“跑偏”真相
GPT-5.5“哥布林”成谜?OpenAI公告揭秘模型行为“跑偏”真相

0评论2026-05-01723