🔧

VoxCPM2

AI工具

OpenBMB开源无Tokenizer TTS模型,2B参数支持30种语言48kHz高保真语音

💰 开源📱 api, cli👁 36 次浏览🔗 0 次点击📅 2026/4/10 收录

📖 详细介绍

VoxCPM2 是清华大学 OpenBMB 团队推出的开源无 Tokenizer 文本转语音(TTS)模型。核心创新在于抛弃了传统 TTS 的语音 Tokenizer 环节,采用扩散自回归架构直接生成连续音频波形,从根本上消除了 Tokenizer 引入的信息损失。2B 参数规模,在超过 200 万小时多语言语音数据上训练。支持 30 种语言的语音合成,输出 48kHz 高保真音频。具备三大核心能力:多语言语音生成(中英日韩法德等)、创意声线设计(通过文字描述生成全新声音风格)、高保真声音克隆(仅需数秒参考音频)。在 MOS 等主观评测和客观指标上均达到 SOTA 水平。MIT 开源协议,GitHub 7,600+ Star。适合语音助手、有声读物、多语言配音、角色扮演等场景。

✅ 核心功能

  • 无Tokenizer架构
  • 30种语言支持
  • 48kHz高保真音频
  • 声音克隆
  • 创意声线设计
  • MIT开源