微软近日开源了名为VibeVoice的前沿语音 AI 模型家族,涵盖自动语音识别(ASR)和文本转语音(TTS)等多项能力。该项目以其强大的长音频处理、多说话人自然对话生成以及实时…微软近日开源了名为VibeVoice的前沿语音 AI 模型家族,涵盖自动语音识别(ASR)和文本转语音(TTS)等多项能力。该项目以其强大的长音频处理、多说话人自然对话生成以及实时…

微软开源前沿语音 AI 家族 VibeVoice:单次处理 90 分钟多说话人对话,GitHub 迅速获 27K Star

2026/03/31 10:27
阅读时长 6 分钟
如需对本内容提供反馈或相关疑问,请通过邮箱 [email protected] 联系我们。

微软近日开源了名为VibeVoice的前沿语音 AI 模型家族,涵盖自动语音识别(ASR)和文本转语音(TTS)等多项能力。该项目以其强大的长音频处理、多说话人自然对话生成以及实时低延迟特性,迅速在开发者社区引发关注,目前已在 GitHub 收获约27K Star。

作为开源研究框架,VibeVoice 采用 MIT 许可协议,支持本地部署,无需云端订阅费用,旨在推动语音合成领域的协作与创新。模型家族主要包括三个核心成员,各有侧重,共同解决了传统语音 AI 在长序列处理、说话人一致性和自然流畅性上的痛点。

VibeVoice-ASR-7B:长达60分钟的结构化语音转文本利器

VibeVoice-ASR-7B 是一个统一的语音转文本模型,能够一次性处理长达60分钟的音频文件,直接输出结构化转录结果。输出不仅包含“谁在说话”(说话人识别)、“何时说话”(精确时间戳),还包括“说了什么”(详细内容),并支持自定义热词功能,可有效提升专有名词或技术术语的识别准确率。该模型支持超过50种语言,适用于长篇会议记录、播客转录等复杂场景。

社区开发者已基于该模型开发出实用工具,例如一款名为Vibing的语音输入法,支持 macOS 和 Windows 平台。用户反馈显示,其识别速度和准确率表现不错,可显著提升日常语音输入效率。

VibeVoice-TTS-1.5B:90分钟多说话人富有表现力的语音生成

VibeVoice-TTS-1.5B 是专注于文本转语音的核心模型,能在单次生成中产出长达90分钟的连续音频,支持最多4个不同说话人进行自然对话模拟。模型生成的语音富有表现力,听起来自然流畅,能模拟真实的停顿、强调和情感转折,非常适合制作播客、长音频叙事、有声书或多角色对话内容。

相比许多传统 TTS 模型仅支持1-2个说话人,VibeVoice-TTS 在长形式、多说话人一致性上实现了显著突破。其底层采用连续语音分词器(声学与语义分词器)结合低帧率设计(7.5Hz),大幅提升了长序列处理的计算效率。

VibeVoice-Realtime-0.5B:约300毫秒延迟的实时 TTS

VibeVoice-Realtime-0.5B 专注于实时场景,支持流式文本输入,首音频输出延迟约300毫秒,同时还能生成约10分钟的长篇语音。该模型特别适合需要即时回应的交互应用,如实时语音助手或直播配音场景。

此外,项目还引入了实验性说话人支持,包括多语言语音和多种英语风格变体,为开发者提供更多定制空间。

AIbase 点评:微软 VibeVoice 的开源不仅降低了高性能语音 AI 的使用门槛,还为本地部署提供了完整解决方案。项目曾因潜在误用风险短暂下架,后通过嵌入音频水印、可听免责声明等安全机制重新上线,体现了负责任 AI 开发的原则。目前,开发者可在 GitHub 仓库和 Hugging Face 获取模型权重,并通过 Colab 等平台快速试用。

随着开源社区的持续贡献(如针对 Apple Silicon 的优化 fork),VibeVoice 有望在内容创作、无障碍工具、语音交互等领域加速落地。感兴趣的开发者可访问微软官方项目页进一步探索

项目地址:https://github.com/microsoft/VibeVoice

市场机遇
AS Roma 图标
AS Roma实时价格 (ASR)
$1.285
$1.285$1.285
-0.84%
USD
AS Roma (ASR) 实时价格图表
免责声明: 本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 [email protected] 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。

您可能也会喜欢

苹果出手整顿“氛围编程”:多款 AI 代码工具遭下架

苹果出手整顿“氛围编程”:多款 AI 代码工具遭下架

文章作者、来源:AIBase 据知情人士透露,知名编程工具“Anything”已于上周被正式下架。 所谓“氛围编程”,是指用户只需通过自然语言描述需求,由 AI 自动生成并运行代码的开发模式。 这种模式极大地降低了编程门槛,但也触碰了苹果关于“自包含规则”的红线。 苹果官方表示,根据审核指南第 2.5.2 条,所有 A
分享
MetaEra2026/03/31 09:20
凭证窃取案后的连环地震:AI 网关巨头 LiteLLM 踢出 Delve,深陷合规造假风波

凭证窃取案后的连环地震:AI 网关巨头 LiteLLM 踢出 Delve,深陷合规造假风波

文章作者、来源:火星财经 全球热门 AI 网关开发商 LiteLLM 正式宣布,终止与合规初创公司 Delve 的所有合作,并计划通过竞争对手重新进行安全认证。 核心事件回顾 此次决裂的导火索源于上周 LiteLLM 开源版本遭遇的严重凭证窃取恶意软件攻击。在攻击发生前,LiteLLM 曾依靠 Delve 的合规服
分享
MetaEra2026/03/31 09:24
Mistral AI斩获8.3亿美元融资,打造欧洲首个超大AI数据中心

Mistral AI斩获8.3亿美元融资,打造欧洲首个超大AI数据中心

文章作者、来源:AIBase 欧洲初创企业 Mistral AI 今日宣布,他们成功完成了一轮总额达8.3亿美元(约合57.43亿元人民币)的债务融资。此次融资的资金将用于在法国巴黎附近的布吕伊埃雷勒沙特建设一座全新的 AI 数据中心,这一项目将为当地的科技创新注入新的动力。 Mistral AI 在声明中表示,该数据
分享
MetaEra2026/03/31 09:56