文章作者、来源:AIBase OpenAI 近日正式推出了三款新型实时语音模型,旨在为开发者提供更先进的语音应用解决方案。这三款模型分别是 GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper,各自针对不同的应用场景。 GPT-Realtime-2 是文章作者、来源:AIBase OpenAI 近日正式推出了三款新型实时语音模型,旨在为开发者提供更先进的语音应用解决方案。这三款模型分别是 GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper,各自针对不同的应用场景。 GPT-Realtime-2 是

OpenAI 发布三款实时语音模型,针对推理对话、实时翻译和实时转录

2026/05/08 09:17
阅读时长 3 分钟
如需对本内容提供反馈或相关疑问,请通过邮箱 [email protected] 联系我们。

文章作者、来源:AIBase

OpenAI 近日正式推出了三款新型实时语音模型,旨在为开发者提供更先进的语音应用解决方案。这三款模型分别是 GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper,各自针对不同的应用场景。

GPT-Realtime-2 是首款具备 GPT-5 级推理能力的语音模型。该模型能够处理复杂的请求,并以更自然的方式持续进行对话。它被专门设计用于实时语音交互,能够在用户提问或发出指令时,同时进行推理并保持对话的连贯性。此外,GPT-Realtime-2 还可以调用工具、处理用户的打断与更正,根据当前情境作出更贴切的回应。

GPT-Realtime-Translate 专注于实时翻译功能,支持 70 多种输入语言和 13 种输出语言。其设计目的在于尽可能地跟上说话者的语速,提供近乎“同声传译“的体验。这使得在跨语言通话、会议或直播等场景下,用户能够更流畅地交流。

GPT-Realtime-Whisper 是一款实时流式语音转写模型,着重于低延迟的语音转文本能力。该模型能够在说话者讲话的同时即时完成转录,为各类实时产品带来更快、更灵敏的表现。无论是直播字幕的实时生成,还是能跟上讨论节奏的会议记录,这款模型都展现了其广泛的应用潜力。

在接入方式与定价方面,OpenAI 表示这三款新模型已纳入其 Realtime API 体系。GPT-Realtime-2 的定价为每 100 万音频输入 Token 收费 32 美元,而每 100 万音频输出 Token 则收费 64 美元。GPT-Realtime-Translate 的费用为每分钟 0.034 美元,而 GPT-Realtime-Whisper 的定价为每分钟 0.017 美元。开发者可以通过 Playground 直接测试这些新模型,或在已有应用中快速集成。

在生成式 AI 不断朝向多模态和实时交互发展的背景下,OpenAI 这次推出的三款语音模型将为开发者提供更便捷的工具,推动语音智能的应用创新。

免责声明: 本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 [email protected] 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。

新手淘金,最高赢取 $2,500!

新手淘金,最高赢取 $2,500!新手淘金,最高赢取 $2,500!

从第一笔交易开始,挖掘每一次 Alpha 机会