分享好友 资讯首页 频道列表

OpenAI开发新系统教导模型诚实承认自身“不良行为”

2025-12-05 01:1416940

12 月 4 日消息,当地时间 12 月 3 日,OpenAI 宣布,正在开发一种新的训练框架,让 AI 在出现不当行为时能够主动“承认”。

据了解,团队把这种机制称为“忏悔(confession)”。传统大语言模型往往用于训练去满足用户期待,因此容易出现逢迎式回答,或在毫无依据下给出极其自信的臆测。新方法则要求模型在给出最终答案后,再提供一段说明,解释自己是如何得出这个回答的。

“忏悔”的评分只看诚实度,不再像主要回答那样需要兼顾有用性、准确性或是否遵守指令。

研究人员表示,希望模型能够如实说明自身行为,包括可能存在风险的问题动作,例如测试作弊、刻意压低表现或违反指令。只要模型诚实承认作弊、压分或违反指令,反而会获得更高奖励。

反对 0
举报 0
收藏 0
打赏 0
评论 0
首次占比超半数!耳夹式耳机缘何崛起?听听用户真实使用感受
首次占比超半数!耳夹式耳机缘何崛起?听听用户真实使用感受

0评论2026-06-232724

筑牢安全基石 赋能数据流通 中国电信“星海”助力数字经济新发展
筑牢安全基石 赋能数据流通 中国电信“星海”助力数字经济新发展

0评论2026-06-18673

商汤小浣熊:打破精英叙事,单月十倍增长背后的普惠办公之道
商汤小浣熊:打破精英叙事,单月十倍增长背后的普惠办公之道

0评论2026-06-182822

深夜代码惊魂:AI助手“发疯”拒令,是幻觉还是信任危机?
深夜代码惊魂:AI助手“发疯”拒令,是幻觉还是信任危机?

0评论2026-06-181608

MiniMax M3大模型开源:MSA技术优化计算,综合智能指数居全球开源模型首位
MiniMax M3大模型开源:MSA技术优化计算,综合智能指数居全球开源模型首位

0评论2026-06-182190

OpenAI筹备GPT-Bidi-1模型 助力ChatGPT语音功能实现重大升级突破
OpenAI筹备GPT-Bidi-1模型 助力ChatGPT语音功能实现重大升级突破

0评论2026-06-181343

安天智能编程和安全分析桌面助手 AVL Code启动对外测试
安天智能编程和安全分析桌面助手 AVL Code启动对外测试

0评论2026-06-181226

抢滩海外市场:Anthropic 在日本力推 Claude 自动化编程服务
抢滩海外市场:Anthropic 在日本力推 Claude 自动化编程服务

0评论2026-06-112586

华纳音乐收购Sureel AI,借AI技术为音乐版权保护注入新动能
华纳音乐收购Sureel AI,借AI技术为音乐版权保护注入新动能

0评论2026-06-111863

坚决打击造谣:理想汽车起诉利用 AI 批量抹黑的传媒公司
坚决打击造谣:理想汽车起诉利用 AI 批量抹黑的传媒公司

0评论2026-06-112586