分享好友 资讯首页 频道列表

OpenAI开发新系统教导模型诚实承认自身“不良行为”

2025-12-05 01:1416250

12 月 4 日消息,当地时间 12 月 3 日,OpenAI 宣布,正在开发一种新的训练框架,让 AI 在出现不当行为时能够主动“承认”。

据了解,团队把这种机制称为“忏悔(confession)”。传统大语言模型往往用于训练去满足用户期待,因此容易出现逢迎式回答,或在毫无依据下给出极其自信的臆测。新方法则要求模型在给出最终答案后,再提供一段说明,解释自己是如何得出这个回答的。

“忏悔”的评分只看诚实度,不再像主要回答那样需要兼顾有用性、准确性或是否遵守指令。

研究人员表示,希望模型能够如实说明自身行为,包括可能存在风险的问题动作,例如测试作弊、刻意压低表现或违反指令。只要模型诚实承认作弊、压分或违反指令,反而会获得更高奖励。

反对 0
举报 0
收藏 0
打赏 0
评论 0
数字化赋能土木工程:手机拍照如何实现隧道“智能诊断”?
数字化赋能土木工程:手机拍照如何实现隧道“智能诊断”?

0评论2026-04-021815

Claude代码泄漏成“公开课”:全球AI工具或迎能力大跃升
Claude代码泄漏成“公开课”:全球AI工具或迎能力大跃升

0评论2026-04-021741

德州农工大学等团队突破:开源训练让AI深度研究能力大幅提升
德州农工大学等团队突破:开源训练让AI深度研究能力大幅提升

0评论2026-04-022781

从执行到统筹:AI解说大师Skill如何赋予智能体“项目经理”式思维?
从执行到统筹:AI解说大师Skill如何赋予智能体“项目经理”式思维?

0评论2026-04-022729

润芯微亮相数字经济大会,以AI技术共绘汽车与具身智能新蓝图
润芯微亮相数字经济大会,以AI技术共绘汽车与具身智能新蓝图

0评论2026-03-312247

Mistral AI获8.3亿美元债务融资 加速构建欧洲AI自主算力新地标
Mistral AI获8.3亿美元债务融资 加速构建欧洲AI自主算力新地标

0评论2026-03-31871

九号公司2025年业绩飘红:营收超212亿 电动两轮车等业务齐头并进
九号公司2025年业绩飘红:营收超212亿 电动两轮车等业务齐头并进

0评论2026-03-312631

送餐路上新角色:DoorDash800万骑手化身“数据矿工”助力AI发展
送餐路上新角色:DoorDash800万骑手化身“数据矿工”助力AI发展

0评论2026-03-311229

高德开源ABot-M0模型:以统一架构赋能具身机器人,突破数据与部署难题
高德开源ABot-M0模型:以统一架构赋能具身机器人,突破数据与部署难题

0评论2026-03-312124

OpenAI关停Sora:业务重心转移,为新模型腾算力与冲刺IPO铺路
OpenAI关停Sora:业务重心转移,为新模型腾算力与冲刺IPO铺路

0评论2026-03-251122