面壁智能开源了个狠的!支持音色设计、克隆、30 语言 + 9 种方言的语音大模型。
面壁和清华团队又开源了个狠的。继去年接连开源 VoxCPM 和 VoxCPM 1.5 之后。面壁智能联合清华大学人机语音交互实验室这次直接把参数量拉到了 2B推出了新一代语音大模型 VoxCPM 2。目前 X 上在热烈讨论。简单说一个开源、免费、功能齐全的语音生成模型配套工具箱也给你备齐了。30 种语言、9 种中国方言、能凭空用文字创造声音、能克隆你的声音、48kHz 高保真音质。而且是一个模型聚集多种功能效果好且全。01VoxCPM 2 是什么VoxCPM 是面壁智能开源的语音大模型系列从去年 9 月开始迭代每次升级都很实在VoxCPM 12025.090.5B 参数16kHz 采样率中英双语 方言3 秒参考音频克隆VoxCPM 1.52025.120.8B 参数44.1kHz 采样率HuggingFace 下载量 5.5kVoxCPM 22026.042B 参数48kHz 采样率30 种全球语言 8 种中国方言从 0.5B 到 2B从 16kHz 到 48kHz从中英双语到 38 种语言每一代都在实打实地升级。到了 VoxCPM 2 这一代基本上把开源语音模型能做的事情全做了。体验链接https://voxcpm.modelbest.cn/开源链接https://github.com/OpenBMB/VoxCPM/Hugging Face链接https://huggingface.openbmb.com/model/openbmb/VoxCPM202四大核心亮点亮点一30 种语言 9 种方言一个模型走遍全球VoxCPM 2 支持的语言覆盖面非常广。VoxCPM 2 支持 30 种全球主流语言中英日韩法德俄阿拉伯语这些不用说了。重点是还覆盖了东南亚八国语种越南语、泰语、印尼语、老挝语、缅甸语、柬埔寨语、菲律宾语、马来西亚语。这个覆盖范围对出海企业来说太友好了有人直接叫它东南亚版 ElevenLabs。国内这边也没落下9 种方言全部安排上四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南语。说到方言这里多提一句用的时候有个小技巧你输入的文本得是方言本身的表达方式不能拿普通话文本让它强行读出方言味道。亮点二音色设计-不用选声音直接造声音这个功能是 VoxCPM 2 最让人兴奋的能力之一。市面上大多数语音模型只能对固定音色做情感或风格控制说白了就是给你几个预设音色你在这几个里面挑。VoxCPM 2 不一样你可以直接用文字描述来创造一个全新的、之前根本不存在的声音。然后再用这个声音去朗读任何文本还能精确控制情感和风格。操作也很简单在控制指令里用自然语言描述你想要的声音就行不需要任何特殊格式。几个描述词的例子感受一下基础风格年轻女性温柔甜美质感风格浑厚低沉的口音男声语速慢带着从容画面感风格听着像个活泼的小姐姐在耳边轻快地说话语速很快但声音很轻柔俏皮的警告听起来一点也不凶反而让人觉得很亲切因为大模型的生成特性即便是相同的指令每次生成的音色细节也会有微妙的随机变化相当于每次都在给你匹配不同的 AI 声优。这个能力打开的想象空间非常大做游戏角色配音、做动画、做有声书不再受限于固定的音色库了。亮点三克隆你的声音还能复刻情感音色克隆这个功能很多模型都有但 VoxCPM 2 在这块做得更深。它基于扩散自回归连续表征方法相比传统的 Token-based 方法能保留更多原始声音的声学信息和情感细节信息损失更少。最终效果就是克隆出来的声音相似度更高真正做到声临其境。上传或录制一段音频建议 5 秒以上素材越充足效果越好AI 就能提取并复制这个音色用它念出你指定的任意文本。更有意思的是克隆不仅仅是复制。你还可以在控制指令里加入辅助提示来改变原有声音的情绪和语速。比如上传了一段日常说话的录音你可以加一句语速很快清亮饱满AI 就会保留原音色但以你想要的语气来播报。不过有一点要注意音色克隆没法跨性别转换用男声的参考音频让 AI 变成女声大概率是不行的。这个功能主要用来调整原声音的情绪、语速和演绎风格。亮点四48kHz 高保真配音级表现力VoxCPM 2 的采样率达到了 48000Hz这是什么概念目前市面上主流的语音 AI 一般是 24000HzVoxCPM 2 直接翻倍达到了高保真音频标准也就是 CD 音质级别。更高的采样率意味着能捕捉并还原声音的每一个细腻细节告别传统 TTS 那种一听就知道是机器生成的感觉。生成的语音在自然度、情感表达和韵律上达到了配音级别可以直接用在影视配音、游戏、动画、有声书这些对声音表现力要求很高的专业场景里。速度方面也不拉胯。在 RTX 4090 上RTF 指标为 0.13也就是生成 10 秒钟的音频只需要 1.3 秒处理速度是实时速度的 7.7 倍。03VoxCPM 2 的优势在哪TTS 这个领域现在各家的基础能力都不差差异主要体现在特色功能和技术路线上。简单过一下 VoxCPM 2 的定位和 Index-TTS 相比VoxCPM 2 在多语种能力上要强很多30 种语言加 9 种方言的覆盖面摆在那里。和 Qwen3-TTS 相比VoxCPM 2 在音色克隆的真实性和任意音色可控上更有优势。而且 VoxCPM 2 一个模型就聚合了多种功能Qwen3-TTS 要实现同样的功能组合需要三个模型叠加。技术路线上VoxCPM 2 采用的扩散自回归连续表征方法在信息保留上天然优于 Token-based 方法音色克隆更真实声音细节表现的上限更高。和 VibeVoice 相比VoxCPM 2 在单人音色生成和多场景适配上做得更深入尤其是视频配音这块。和闭源模型比就更简单了VoxCPM 2 开源、免费。开发者这块面壁也把工具链准备好了原生 Torch 推理、LoRA 和全参数微调、VoxCPM-NanoVLLM 高吞吐部署、ComfyUI 和 WebUI 扩展、ONNX 导出支持 CPU 快速推理甚至还有 Rust 语言重构版本。从一键上手到大规模部署都覆盖了。体验链接https://voxcpm.modelbest.cn/GitHub开源链接https://github.com/OpenBMB/VoxCPM/Hugging Face链接https://huggingface.openbmb.com/model/openbmb/VoxCPM204点击下方卡片关注逛逛 GitHub这个公众号历史发布过很多有趣的开源项目如果你懒得翻文章一个个找你直接关注微信公众号逛逛 GitHub 后台对话聊天就行了