2026-05-27 CosyVoice 语音合成模型总结
一、模型概览
CosyVoice 是阿里巴巴通义实验室开源的生成式语音大模型(TTS) ,支持零样本语音克隆、跨语种合成、指令控制等功能。目前共 5 个可用模型,分三代:
| 模型名称 | 参数量 | 定位 | 核心能力 |
|---|---|---|---|
| CosyVoice-300M | 0.3B | 基础模型 | zero-shot 克隆、跨语种复刻、音色转换(VC) |
| CosyVoice-300M-SFT | 0.3B | 有监督微调 | 内置多个预训练音色,直接选择说话人 |
| CosyVoice-300M-Instruct | 0.3B | 指令控制 | 支持自然语言指令(情感、语速、音量等) |
| CosyVoice2-0.5B | 0.5B | 第二代 | 流式推理、双向流、最低 150ms 延迟 |
| Fun-CosyVoice3-0.5B | 0.5B | 第三代(推荐) | 9 种语言、18+ 中文方言、发音纠正、最自然韵律 |
二、官方性能评测
| 模型 | test-zh CER ↓ | test-zh SS ↑ | test-en WER ↓ | test-en SS ↑ |
|---|---|---|---|---|
| Human | 1.26% | 75.5% | 2.14% | 73.4% |
| CosyVoice2 | 1.45% | 75.7% | 2.57% | 65.9% |
| Fun-CosyVoice3-0.5B | 1.21% | 78.0% | 2.24% | 71.8% |
| Fun-CosyVoice3-0.5B_RL | 0.81% | 77.4% | 1.68% | 69.5% |
结论:CosyVoice3 在内容一致性(CER/WER)和说话人相似度(SS)上全面优于 1.0/2.0,官方推荐优先使用。
三、磁盘与显存资源需求
| 资源项 | 详情 |
|---|---|
| 全部模型磁盘占用 | 约 14–15 GB(单个模型 2.5–3.5GB) |
| 代码 + 依赖 | 约 2–3 GB |
| 推荐预留空间 | ≥ 20 GB |
各模型显存需求(推理)
| 模型 | 显存占用(FP16) |
|---|---|
| CosyVoice-300M 系列 | ~6 GB |
| CosyVoice2-0.5B | ~7–8 GB |
| Fun-CosyVoice3-0.5B | ~7–8 GB |
四、不同硬件运行预期
| 硬件 | 能否运行 | 推理速度(RTF) | 说明 |
|---|---|---|---|
| RTX 3050(4GB) | ❌ 不能直接跑 | — | 显存不足,所有模型都会 OOM;可改 CPU 模式,但极慢 |
| RTX 3060 Ti(8GB) | ✅ 可以 | 0.1–0.5 | 8GB 刚好够跑 0.5B 模型;建议关其他程序,用 FP16 |
| CPU(16GB 内存) | ✅ 可以 | 5.0+ | 能跑通流程,但 RTF > 5,仅适合测试/demo,不适合生产 |
RTF(实时率)= 推理耗时 / 音频时长,RTF < 1 表示比实时快。
五、WebUI 使用方法
启动命令(启动时指定模型,运行中不可切换):
# 启动 CosyVoice3(推荐)
python webui.py --port 50000 --model_dir pretrained_models/Fun-CosyVoice3-0.5B
# 启动 CosyVoice2
python webui.py --port 50000 --model_dir pretrained_models/CosyVoice2-0.5B
# 启动 CosyVoice-300M-SFT(有预训练音色)
python webui.py --port 50000 --model_dir pretrained_models/CosyVoice-300M-SFT
WebUI 四种模式与模型的对应关系:
| WebUI 模式 | 需要的模型 |
|---|---|
| 预训练音色 | CosyVoice-300M-SFT |
| 3s 极速复刻 | CosyVoice-300M / CosyVoice2 / CosyVoice3 |
| 跨语种复刻 | CosyVoice-300M / CosyVoice2 / CosyVoice3 |
| 自然语言控制 | CosyVoice-300M-Instruct / CosyVoice3 |
六、快速上手建议
- 只想体验:只下载
Fun-CosyVoice3-0.5B即可(效果最好,功能最全) - 做对比测试:下载
CosyVoice-300M +Fun-CosyVoice3-0.5B,两代对比最直观 - 8GB 显卡用户:可以跑,但建议单模型测试,不要同时加载多个模型
- 4GB 显卡用户:建议换机器或租 GPU(如 AutoDL、Colab),本地只能 CPU 跑 demo
七、模型下载方式
# ModelScope 下载
from modelscope import snapshot_download
snapshot_download('FunAudioLLM/Fun-CosyVoice3-0.5B-2512', local_dir='pretrained_models/Fun-CosyVoice3-0.5B')
snapshot_download('iic/CosyVoice2-0.5B', local_dir='pretrained_models/CosyVoice2-0.5B')
snapshot_download('iic/CosyVoice-300M', local_dir='pretrained_models/CosyVoice-300M')
# HuggingFace 下载
from huggingface_hub import snapshot_download
snapshot_download('FunAudioLLM/Fun-CosyVoice3-0.5B-2512', local_dir='pretrained_models/Fun-CosyVoice3-0.5B')
整理时间:2026-05-27