OpenAI 推出 AI “忏悔”框架:旨在训练模型承认不当行为，提高诚实度_AI_

OpenAI 今日宣布，正在开发一个名为的创新框架，旨在训练人工智能模型能够坦诚承认自身何时做出了不当行为或潜在的问题决策。

大型语言模型（LLM）通常被训练成提供“符合预期”的回答，这使得它们越来越容易做出阿谀奉承或信口开河的虚假陈述。OpenAI 的新训练模型正是为了解决这一问题，引导模型在主要答案之后做出二次回应，详细说明其得出主要答案的过程。

与传统 LLM 评判标准（如帮助性、准确性和服从性）不同，“忏悔”机制对二次回应的评判标准仅基于诚实性。

研究人员明确表示，他们的目标是鼓励模型坦诚地说明其行为，即便这些行为包括潜在的问题行为，例如:作弊，故意降低分数，违反指令等。

OpenAI 表示:“如果模型诚实地承认作弊、故意降低分数或违反指令，这种坦白反而会增加其奖励，而不是减少。”

OpenAI 认为，无论出于何种目的，类似“忏悔”这样的系统都可能对 LLM 的训练有所帮助，并强调其最终目标是让 AI 更加透明。相关的技术文档已同步发布，供感兴趣者查阅。

闪迪探索创新路径：芯片下堆叠NAND闪存，应对存储容量新挑战

0评论2026-06-23918

具身智能独角兽酷哇科技加速赴港IPO 未来两三月内将递交申请且已完成超6亿融资

0评论2026-06-231466

Getty Images牵手OpenAI：股价飙升背后，合作能否化解行业挑战？

0评论2026-06-232687

软银与OpenAI强强联合，“补丁即服务”赋能AI网络安全新防线

0评论2026-06-181272

OpenAI被曝正筹备发布新一代双向语音模型“GPT-Bidi-1”

0评论2026-06-181896

支付宝“阿宝”邀请码遭非法交易？官方回应：未授权售卖，可免费分享

0评论2026-06-181956

高通骁龙Reality Elite芯片发布：AI算力飙升，XR设备性能与体验双升级

0评论2026-06-181362

贾跃亭携法拉第未来发布多款EAI机器人，布局消费级与教育市场新赛道

0评论2026-06-181682

OpenAI筹备“GPT-Bidi-1”：双向语音架构升级，补齐多模态体验短板

0评论2026-06-181225

OpenAI筹备GPT-Bidi-1模型，ChatGPT语音模式或迎重大升级突破

0评论2026-06-18905