2026-05-27 CosyVoice 语音合成模型总结

仓库地址：https://github.com/FunAudioLLM/CosyVoice

一、模型概览

CosyVoice 是阿里巴巴通义实验室开源的生成式语音大模型（TTS） ，支持零样本语音克隆、跨语种合成、指令控制等功能。目前共 5 个可用模型，分三代：

模型名称	参数量	定位	核心能力
CosyVoice-300M	0.3B	基础模型	zero-shot 克隆、跨语种复刻、音色转换（VC）
CosyVoice-300M-SFT	0.3B	有监督微调	内置多个预训练音色，直接选择说话人
CosyVoice-300M-Instruct	0.3B	指令控制	支持自然语言指令（情感、语速、音量等）
CosyVoice2-0.5B	0.5B	第二代	流式推理、双向流、最低 150ms 延迟
Fun-CosyVoice3-0.5B	0.5B	第三代（推荐）	9 种语言、18+ 中文方言、发音纠正、最自然韵律

二、官方性能评测

模型	test-zh CER ↓	test-zh SS ↑	test-en WER ↓	test-en SS ↑
Human	1.26%	75.5%	2.14%	73.4%
CosyVoice2	1.45%	75.7%	2.57%	65.9%
Fun-CosyVoice3-0.5B	1.21%	78.0%	2.24%	71.8%
Fun-CosyVoice3-0.5B_RL	0.81%	77.4%	1.68%	69.5%

结论：CosyVoice3 在内容一致性（CER/WER）和说话人相似度（SS）上全面优于 1.0/2.0，官方推荐优先使用。

三、磁盘与显存资源需求

资源项	详情
全部模型磁盘占用	约 14–15 GB（单个模型 2.5–3.5GB）
代码 + 依赖	约 2–3 GB
推荐预留空间	≥ 20 GB

各模型显存需求（推理）

模型	显存占用（FP16）
CosyVoice-300M 系列	~6 GB
CosyVoice2-0.5B	~7–8 GB
Fun-CosyVoice3-0.5B	~7–8 GB

四、不同硬件运行预期

硬件	能否运行	推理速度（RTF）	说明
RTX 3050（4GB）	❌ 不能直接跑	—	显存不足，所有模型都会 OOM；可改 CPU 模式，但极慢
RTX 3060 Ti（8GB）	✅ 可以	0.1–0.5	8GB 刚好够跑 0.5B 模型；建议关其他程序，用 FP16
CPU（16GB 内存）	✅ 可以	5.0+	能跑通流程，但 RTF > 5，仅适合测试/demo，不适合生产

RTF（实时率）= 推理耗时 / 音频时长，RTF < 1 表示比实时快。

五、WebUI 使用方法

启动命令（启动时指定模型，运行中不可切换）：

# 启动 CosyVoice3（推荐）
python webui.py --port 50000 --model_dir pretrained_models/Fun-CosyVoice3-0.5B

# 启动 CosyVoice2
python webui.py --port 50000 --model_dir pretrained_models/CosyVoice2-0.5B

# 启动 CosyVoice-300M-SFT（有预训练音色）
python webui.py --port 50000 --model_dir pretrained_models/CosyVoice-300M-SFT

WebUI 四种模式与模型的对应关系：

WebUI 模式	需要的模型
预训练音色	CosyVoice-300M-SFT
3s 极速复刻	CosyVoice-300M / CosyVoice2 / CosyVoice3
跨语种复刻	CosyVoice-300M / CosyVoice2 / CosyVoice3
自然语言控制	CosyVoice-300M-Instruct / CosyVoice3

六、快速上手建议

只想体验：只下载 Fun-CosyVoice3-0.5B 即可（效果最好，功能最全）
做对比测试：下载 CosyVoice-300M + Fun-CosyVoice3-0.5B，两代对比最直观
8GB 显卡用户：可以跑，但建议单模型测试，不要同时加载多个模型
4GB 显卡用户：建议换机器或租 GPU（如 AutoDL、Colab），本地只能 CPU 跑 demo

七、模型下载方式

# ModelScope 下载
from modelscope import snapshot_download
snapshot_download('FunAudioLLM/Fun-CosyVoice3-0.5B-2512', local_dir='pretrained_models/Fun-CosyVoice3-0.5B')
snapshot_download('iic/CosyVoice2-0.5B', local_dir='pretrained_models/CosyVoice2-0.5B')
snapshot_download('iic/CosyVoice-300M', local_dir='pretrained_models/CosyVoice-300M')

# HuggingFace 下载
from huggingface_hub import snapshot_download
snapshot_download('FunAudioLLM/Fun-CosyVoice3-0.5B-2512', local_dir='pretrained_models/Fun-CosyVoice3-0.5B')

整理时间：2026-05-27

菜单

分享

CosyVoice 语音合成模型总结

2026-05-27 CosyVoice 语音合成模型总结

一、模型概览

二、官方性能评测

三、磁盘与显存资源需求

各模型显存需求（推理）

四、不同硬件运行预期

五、WebUI 使用方法

六、快速上手建议

七、模型下载方式

评论

Docmost MCP 配置方法总结

自定义语音助手

SiYuan MCP 安装总结

HA 语音助手完整生态

电脑控制

MiniMax MCP 安装总结（Ubuntu／Linux）

CosyVoice 语音合成模型总结

PWM调光控制

TTS 方案横向终极对比表

设置TTS