分享好友 资讯首页 频道列表

OpenAI发布三款实时语音模型:GPT-Realtime-2推理强,翻译转录也高效

2026-05-09 13:037980

OpenAI 近日推出三款面向实时语音场景的专用模型,通过Realtime API向全球开发者开放调用。这三款模型分别聚焦语音推理、多语言翻译和低延迟转录三大核心需求,旨在破解传统语音交互中存在的延迟响应、打断处理困难及跨语言支持不足等痛点,为智能语音助手、实时会议系统等应用提供底层技术支撑。

作为此次发布的旗舰产品,GPT-Realtime-2首次将GPT-5级别的推理能力引入语音交互领域。该模型在保持对话自然流畅的同时,支持实时推理决策、工具调用及用户打断处理。例如当用户中途修正指令时,模型能立即调整响应策略,而非机械执行初始命令。这种能力使得开发者可构建具备复杂任务处理能力的语音助手,如自动订票系统中同时处理日期修改、座位升级等多步骤操作。

在定价体系方面,GPT-Realtime-2采用Token计费模式:音频输入每百万Token收费32美元(约合人民币218.1元),输出收费64美元(约合人民币436.2元),缓存输入费用则低至0.4美元。这种差异化定价策略既考虑了计算资源消耗差异,也为高频使用者提供了成本优化空间。

针对跨国沟通场景,GPT-Realtime-Translate支持70种语言输入与13种语言输出的实时互译。该模型通过动态调整翻译节奏,确保输出文本与说话者语速同步,特别适用于国际会议、远程医疗等需要即时理解的场景。测试数据显示,其翻译延迟控制在200毫秒以内,达到人类对话的自然节奏标准。

另一款专业模型GPT-Realtime-Whisper专注于流式转录服务,通过优化音频处理算法实现"边说边转"的零延迟体验。在会议记录、实时字幕等场景中,该模型可将转录等待时间减少70%,同时保持95%以上的准确率。其按分钟计费模式(翻译每分钟0.034美元,转录每分钟0.017美元)也降低了中小企业的使用门槛。

技术专家指出,这三款模型的发布标志着语音交互进入"实时智能"新阶段。通过将大语言模型的推理能力与语音处理技术深度融合,OpenAI正在重新定义人机语音交互的标准,为教育、医疗、客服等行业的数字化转型提供关键基础设施。

反对 0
举报 0
收藏 0
打赏 0
评论 0
苹果库克称Mac Studio与Mac Mini需求超预期,未来数月或难达供需平衡
苹果库克称Mac Studio与Mac Mini需求超预期,未来数月或难达供需平衡

0评论2026-05-012487

AI融入生活:2025年峰会现场见证智能应用从想象走进日常
AI融入生活:2025年峰会现场见证智能应用从想象走进日常

0评论2026-05-011208

OpenAI美国上线ChatGPT临床医生版:认证医护免费享,助力高效医疗实践
OpenAI美国上线ChatGPT临床医生版:认证医护免费享,助力高效医疗实践

0评论2026-04-232659

自变量机器人进家庭计划启动 35天后搭载WALL-B新机器人将入驻用户家
自变量机器人进家庭计划启动 35天后搭载WALL-B新机器人将入驻用户家

0评论2026-04-23594

阿维塔06T上市:华为技术赋能,太行智控加持,限时21.59万元起售
阿维塔06T上市:华为技术赋能,太行智控加持,限时21.59万元起售

0评论2026-04-23605

开源AI新星Hermes Agent:超10万Star加持,让AI助手学会“自我进化”
开源AI新星Hermes Agent:超10万Star加持,让AI助手学会“自我进化”

0评论2026-04-232848

OpenAI Workspace Agents上线:云端智能体助力团队协作全天候高效运转
OpenAI Workspace Agents上线:云端智能体助力团队协作全天候高效运转

0评论2026-04-232066

特努斯接棒苹果前布局AI,重组硬件部门欲提速产品开发提质量
特努斯接棒苹果前布局AI,重组硬件部门欲提速产品开发提质量

0评论2026-04-23670

特斯拉车机语音大模型在沪完成备案,智能座舱体验迎来AI升级
特斯拉车机语音大模型在沪完成备案,智能座舱体验迎来AI升级

0评论2026-04-232047

北京移动面向个人用户推出“算力Token套餐”
北京移动面向个人用户推出“算力Token套餐”

0评论2026-04-23989