分享好友 资讯首页 频道列表

OpenAI发布三款实时语音模型:GPT-Realtime-2推理强,翻译转录也高效

2026-05-09 13:039100

OpenAI 近日推出三款面向实时语音场景的专用模型,通过Realtime API向全球开发者开放调用。这三款模型分别聚焦语音推理、多语言翻译和低延迟转录三大核心需求,旨在破解传统语音交互中存在的延迟响应、打断处理困难及跨语言支持不足等痛点,为智能语音助手、实时会议系统等应用提供底层技术支撑。

作为此次发布的旗舰产品,GPT-Realtime-2首次将GPT-5级别的推理能力引入语音交互领域。该模型在保持对话自然流畅的同时,支持实时推理决策、工具调用及用户打断处理。例如当用户中途修正指令时,模型能立即调整响应策略,而非机械执行初始命令。这种能力使得开发者可构建具备复杂任务处理能力的语音助手,如自动订票系统中同时处理日期修改、座位升级等多步骤操作。

在定价体系方面,GPT-Realtime-2采用Token计费模式:音频输入每百万Token收费32美元(约合人民币218.1元),输出收费64美元(约合人民币436.2元),缓存输入费用则低至0.4美元。这种差异化定价策略既考虑了计算资源消耗差异,也为高频使用者提供了成本优化空间。

针对跨国沟通场景,GPT-Realtime-Translate支持70种语言输入与13种语言输出的实时互译。该模型通过动态调整翻译节奏,确保输出文本与说话者语速同步,特别适用于国际会议、远程医疗等需要即时理解的场景。测试数据显示,其翻译延迟控制在200毫秒以内,达到人类对话的自然节奏标准。

另一款专业模型GPT-Realtime-Whisper专注于流式转录服务,通过优化音频处理算法实现"边说边转"的零延迟体验。在会议记录、实时字幕等场景中,该模型可将转录等待时间减少70%,同时保持95%以上的准确率。其按分钟计费模式(翻译每分钟0.034美元,转录每分钟0.017美元)也降低了中小企业的使用门槛。

技术专家指出,这三款模型的发布标志着语音交互进入"实时智能"新阶段。通过将大语言模型的推理能力与语音处理技术深度融合,OpenAI正在重新定义人机语音交互的标准,为教育、医疗、客服等行业的数字化转型提供关键基础设施。

反对 0
举报 0
收藏 0
打赏 0
评论 0
国联民生:以“三投联动”为笔 绘就科创金融赋能新质生产力新画卷
国联民生:以“三投联动”为笔 绘就科创金融赋能新质生产力新画卷

0评论2026-06-232941

兴业科技5500万跨界“接手”磷化铟衬底业务,华芯晶电赴港前夕出售引关注
兴业科技5500万跨界“接手”磷化铟衬底业务,华芯晶电赴港前夕出售引关注

0评论2026-06-231497

深夜代码惊魂:AI助手“发疯”拒令,是幻觉还是信任危机?
深夜代码惊魂:AI助手“发疯”拒令,是幻觉还是信任危机?

0评论2026-06-181601

昆仑万维发布天工3.1:上线全新画布设计与多 Agent 并行工作流
昆仑万维发布天工3.1:上线全新画布设计与多 Agent 并行工作流

0评论2026-06-18961

华纳音乐收购Sureel AI,借AI技术为音乐版权保护注入新动能
华纳音乐收购Sureel AI,借AI技术为音乐版权保护注入新动能

0评论2026-06-111849

名创优品Q1营收超预期,AI投资“暴富”背后主业盈利压力待解
名创优品Q1营收超预期,AI投资“暴富”背后主业盈利压力待解

0评论2026-05-272185

石家庄带电作业新帮手:机器人“同事”上岗,开启安全高效新模式
石家庄带电作业新帮手:机器人“同事”上岗,开启安全高效新模式

0评论2026-05-271287

华为发布“韬(τ)定律”:后摩尔时代,中国芯片突围的新坐标?
华为发布“韬(τ)定律”:后摩尔时代,中国芯片突围的新坐标?

0评论2026-05-271865

OpenAI CEO奥尔特曼改口:AI未致就业末日 人类独特价值仍难被取代
OpenAI CEO奥尔特曼改口:AI未致就业末日 人类独特价值仍难被取代

0评论2026-05-271268

AIROBO引领新趋势:中国机器人产业迈向运营时代,布局未来社区新蓝海
AIROBO引领新趋势:中国机器人产业迈向运营时代,布局未来社区新蓝海

0评论2026-05-262608