分享好友 资讯首页 频道列表

OpenAI 推出 AI “忏悔”框架:旨在训练模型承认不当行为,提高诚实度

2025-12-05 01:1327610

OpenAI 今日宣布,正在开发一个名为的创新框架,旨在训练人工智能模型能够坦诚承认自身何时做出了不当行为或潜在的问题决策。

大型语言模型(LLM)通常被训练成提供“符合预期”的回答,这使得它们越来越容易做出阿谀奉承或信口开河的虚假陈述。OpenAI 的新训练模型正是为了解决这一问题,引导模型在主要答案之后做出二次回应,详细说明其得出主要答案的过程。

与传统 LLM 评判标准(如帮助性、准确性和服从性)不同,“忏悔”机制对二次回应的评判标准仅基于诚实性。

研究人员明确表示,他们的目标是鼓励模型坦诚地说明其行为,即便这些行为包括潜在的问题行为,例如:作弊,故意降低分数,违反指令等。

OpenAI 表示:“如果模型诚实地承认作弊、故意降低分数或违反指令,这种坦白反而会增加其奖励,而不是减少。”

OpenAI 认为,无论出于何种目的,类似“忏悔”这样的系统都可能对 LLM 的训练有所帮助,并强调其最终目标是让 AI 更加透明。相关的技术文档已同步发布,供感兴趣者查阅。

反对 0
举报 0
收藏 0
打赏 0
评论 0
OpenAI关停Sora:放弃视频业务,转向企业级市场为上市铺路
OpenAI关停Sora:放弃视频业务,转向企业级市场为上市铺路

0评论2026-03-252769

OpenAI关停Sora:业务重心转移,为新模型腾算力与冲刺IPO铺路
OpenAI关停Sora:业务重心转移,为新模型腾算力与冲刺IPO铺路

0评论2026-03-251100

智慧与绿色交织:雄安新区电网建设绘就低碳发展新画卷
智慧与绿色交织:雄安新区电网建设绘就低碳发展新画卷

0评论2026-03-252913

奔驰携手清华与智谱,多模态大模型赋能迈巴赫新S级后排娱乐体验
奔驰携手清华与智谱,多模态大模型赋能迈巴赫新S级后排娱乐体验

0评论2026-03-25685

JEDEC更新LPDDR5和5X内存SPD标准,助力计算系统降耗提效
JEDEC更新LPDDR5和5X内存SPD标准,助力计算系统降耗提效

0评论2026-03-252436

贝莱德CEO:不认为人工智能存在泡沫 是技术主导权竞争
贝莱德CEO:不认为人工智能存在泡沫 是技术主导权竞争

0评论2026-03-251000

Mozilla推“cq”项目建AI编程知识库:打破信息孤岛,让AI编程“少走弯路”
Mozilla推“cq”项目建AI编程知识库:打破信息孤岛,让AI编程“少走弯路”

0评论2026-03-251337

OpenAI视频生成模型Sora即将关停,或为IPO聚焦商业编程职能做准备
OpenAI视频生成模型Sora即将关停,或为IPO聚焦商业编程职能做准备

0评论2026-03-252163

贵安新区固态电池新突破:半固态量产提速 全固态研发启新程
贵安新区固态电池新突破:半固态量产提速 全固态研发启新程

0评论2026-03-252841

百望股份2025年首度扭亏为盈 AI与数据双引擎驱动业绩增长
百望股份2025年首度扭亏为盈 AI与数据双引擎驱动业绩增长

0评论2026-03-25912