Evan
发布于 2026-05-28 / 0 阅读
0
0

CosyVoice 语音合成模型总结

2026-05-27 CosyVoice 语音合成模型总结

仓库地址:https://github.com/FunAudioLLM/CosyVoice

一、模型概览

CosyVoice 是阿里巴巴通义实验室开源的生成式语音大模型(TTS) ,支持零样本语音克隆、跨语种合成、指令控制等功能。目前共 5 个可用模型,分三代:

模型名称 参数量 定位 核心能力
CosyVoice-300M 0.3B 基础模型 zero-shot 克隆、跨语种复刻、音色转换(VC)
CosyVoice-300M-SFT 0.3B 有监督微调 内置多个预训练音色,直接选择说话人
CosyVoice-300M-Instruct 0.3B 指令控制 支持自然语言指令(情感、语速、音量等)
CosyVoice2-0.5B 0.5B 第二代 流式推理、双向流、最低 150ms 延迟
Fun-CosyVoice3-0.5B 0.5B 第三代(推荐) 9 种语言、18+ 中文方言、发音纠正、最自然韵律

二、官方性能评测

模型 test-zh CER ↓ test-zh SS ↑ test-en WER ↓ test-en SS ↑
Human 1.26% 75.5% 2.14% 73.4%
CosyVoice2 1.45% 75.7% 2.57% 65.9%
Fun-CosyVoice3-0.5B 1.21% 78.0% 2.24% 71.8%
Fun-CosyVoice3-0.5B_RL 0.81% 77.4% 1.68% 69.5%

结论:CosyVoice3 在内容一致性(CER/WER)和说话人相似度(SS)上全面优于 1.0/2.0,官方推荐优先使用。

三、磁盘与显存资源需求

资源项 详情
全部模型磁盘占用 14–15 GB(单个模型 2.5–3.5GB)
代码 + 依赖 约 2–3 GB
推荐预留空间 ≥ 20 GB

各模型显存需求(推理)

模型 显存占用(FP16)
CosyVoice-300M 系列 ~6 GB
CosyVoice2-0.5B ~7–8 GB
Fun-CosyVoice3-0.5B ~7–8 GB

四、不同硬件运行预期

硬件 能否运行 推理速度(RTF) 说明
RTX 3050(4GB) ❌ 不能直接跑 显存不足,所有模型都会 OOM;可改 CPU 模式,但极慢
RTX 3060 Ti(8GB) ✅ 可以 0.1–0.5 8GB 刚好够跑 0.5B 模型;建议关其他程序,用 FP16
CPU(16GB 内存) ✅ 可以 5.0+ 能跑通流程,但 RTF > 5,仅适合测试/demo,不适合生产

RTF(实时率)= 推理耗时 / 音频时长,RTF < 1 表示比实时快。

五、WebUI 使用方法

启动命令(启动时指定模型,运行中不可切换):

# 启动 CosyVoice3(推荐)
python webui.py --port 50000 --model_dir pretrained_models/Fun-CosyVoice3-0.5B

# 启动 CosyVoice2
python webui.py --port 50000 --model_dir pretrained_models/CosyVoice2-0.5B

# 启动 CosyVoice-300M-SFT(有预训练音色)
python webui.py --port 50000 --model_dir pretrained_models/CosyVoice-300M-SFT

WebUI 四种模式与模型的对应关系:

WebUI 模式 需要的模型
预训练音色 CosyVoice-300M-SFT
3s 极速复刻 CosyVoice-300M / CosyVoice2 / CosyVoice3
跨语种复刻 CosyVoice-300M / CosyVoice2 / CosyVoice3
自然语言控制 CosyVoice-300M-Instruct / CosyVoice3

六、快速上手建议

  1. 只想体验:只下载 Fun-CosyVoice3-0.5B 即可(效果最好,功能最全)
  2. 做对比测试:下载 CosyVoice-300M​ + Fun-CosyVoice3-0.5B,两代对比最直观
  3. 8GB 显卡用户:可以跑,但建议单模型测试,不要同时加载多个模型
  4. 4GB 显卡用户:建议换机器或租 GPU(如 AutoDL、Colab),本地只能 CPU 跑 demo

七、模型下载方式

# ModelScope 下载
from modelscope import snapshot_download
snapshot_download('FunAudioLLM/Fun-CosyVoice3-0.5B-2512', local_dir='pretrained_models/Fun-CosyVoice3-0.5B')
snapshot_download('iic/CosyVoice2-0.5B', local_dir='pretrained_models/CosyVoice2-0.5B')
snapshot_download('iic/CosyVoice-300M', local_dir='pretrained_models/CosyVoice-300M')

# HuggingFace 下载
from huggingface_hub import snapshot_download
snapshot_download('FunAudioLLM/Fun-CosyVoice3-0.5B-2512', local_dir='pretrained_models/Fun-CosyVoice3-0.5B')

整理时间:2026-05-27


评论