文章作者、来源：AIBase OpenAI 近日正式推出了三款新型实时语音模型，旨在为开发者提供更先进的语音应用解决方案。这三款模型分别是 GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper，各自针对不同的应用场景。 GPT-Realtime-2 是文章作者、来源：AIBase OpenAI 近日正式推出了三款新型实时语音模型，旨在为开发者提供更先进的语音应用解决方案。这三款模型分别是 GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper，各自针对不同的应用场景。 GPT-Realtime-2 是

OpenAI 发布三款实时语音模型，针对推理对话、实时翻译和实时转录

来源：MetaEra

2026/05/08 09:17

阅读时长 3 分钟

如需对本内容提供反馈或相关疑问，请通过邮箱 [email protected] 联系我们。

文章作者、来源：AIBase

OpenAI 近日正式推出了三款新型实时语音模型，旨在为开发者提供更先进的语音应用解决方案。这三款模型分别是 GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper，各自针对不同的应用场景。

GPT-Realtime-2 是首款具备 GPT-5 级推理能力的语音模型。该模型能够处理复杂的请求，并以更自然的方式持续进行对话。它被专门设计用于实时语音交互，能够在用户提问或发出指令时，同时进行推理并保持对话的连贯性。此外，GPT-Realtime-2 还可以调用工具、处理用户的打断与更正，根据当前情境作出更贴切的回应。

GPT-Realtime-Translate 专注于实时翻译功能，支持 70 多种输入语言和 13 种输出语言。其设计目的在于尽可能地跟上说话者的语速，提供近乎“同声传译“的体验。这使得在跨语言通话、会议或直播等场景下，用户能够更流畅地交流。

GPT-Realtime-Whisper 是一款实时流式语音转写模型，着重于低延迟的语音转文本能力。该模型能够在说话者讲话的同时即时完成转录，为各类实时产品带来更快、更灵敏的表现。无论是直播字幕的实时生成，还是能跟上讨论节奏的会议记录，这款模型都展现了其广泛的应用潜力。

在接入方式与定价方面，OpenAI 表示这三款新模型已纳入其 Realtime API 体系。GPT-Realtime-2 的定价为每 100 万音频输入 Token 收费 32 美元，而每 100 万音频输出 Token 则收费 64 美元。GPT-Realtime-Translate 的费用为每分钟 0.034 美元，而 GPT-Realtime-Whisper 的定价为每分钟 0.017 美元。开发者可以通过 Playground 直接测试这些新模型，或在已有应用中快速集成。

在生成式 AI 不断朝向多模态和实时交互发展的背景下，OpenAI 这次推出的三款语音模型将为开发者提供更便捷的工具，推动语音智能的应用创新。

错过等一年！U狂欢$200,000奖池开抢

拉宝箱赢U/黄金/BNB，质押U享12%APR，新用户再领$200

免责声明: 本网站转载的文章均来源于公开平台，仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利，请联系 [email protected] 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证，并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考，不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。