Evan
发布于 2026-05-28 / 2 阅读
0
1

TTS 方案横向终极对比表

2026-04-19 TTS 方案横向终极对比表

说明几个维度的评判标准

速度:        从调用到开始出声的延迟
所需资源:    运行该方案需要的硬件
中英混合:    同一句话中英文混读的自然度
流畅度:      长句子/复杂句子的连贯性
HA支持:      接入HA的难易程度和官方支持情况

完整横向对比表

本地离线方案

方案 音质 速度 中文 英文 中英混合 流畅度 稳定性 所需资源 HA 支持 推荐度
Piper ⭐⭐⭐ 极快
~50ms
⭐⭐ ⭐⭐⭐ ⭐⭐
切换生硬
⭐⭐⭐ ⭐⭐
易崩溃
极低
树莓派可用
内存<200MB
官方内置
Wyoming 协议
⭐⭐⭐⭐⭐
espeak-ng 极快
~20ms
⭐⭐
极差
⭐⭐ ⭐⭐⭐⭐⭐ 极低
内存<50MB
官方内置
⭐⭐⭐⭐⭐
Festival ⭐⭐
~100ms
⭐⭐⭐
极差
⭐⭐ ⭐⭐⭐
内存<100MB
无官方支持
需自定义
⭐⭐
MaryTTS ⭐⭐⭐
~300ms
⭐⭐ ⭐⭐⭐ ⭐⭐
一般
⭐⭐⭐ ⭐⭐⭐
需 Java 环境
内存~500MB
无官方支持
REST API
⭐⭐

云端方案

方案 音质 速度 中文 英文 中英混合 流畅度 稳定性 所需资源 HA 支持 推荐度
Edge TTS ⭐⭐⭐⭐⭐
300~800ms
⭐⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐⭐
极自然
⭐⭐⭐⭐⭐ ⭐⭐⭐⭐
依赖网络
极低
仅需网络
HACS 插件
配置简单
⭐⭐⭐⭐
✅✅✅
讯飞 TTS ⭐⭐⭐⭐⭐
200~500ms
⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐
业界最强
⭐⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ 极低
仅需网络
无官方支持
需自定义组件
⭐⭐⭐
✅✅✅
阿里云 TTS ⭐⭐⭐⭐⭐
200~500ms
⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐
极自然
⭐⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ 极低
仅需网络
无官方支持
需自定义组件
⭐⭐⭐
✅✅✅
百度 TTS ⭐⭐⭐⭐
300~600ms
⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐⭐
良好
⭐⭐⭐⭐ ⭐⭐⭐⭐ 极低
仅需网络
HACS 有插件
⭐⭐⭐⭐
✅✅
腾讯云 TTS ⭐⭐⭐⭐
300~600ms
⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐⭐
良好
⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ 极低
仅需网络
无官方支持
需自定义组件
⭐⭐⭐
✅✅
Azure TTS ⭐⭐⭐⭐⭐
200~500ms
⭐⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐⭐
极自然
⭐⭐⭐⭐⭐ ⭐⭐⭐⭐⭐
企业级
极低
仅需网络
HA 官方内置
⭐⭐⭐⭐⭐
✅✅✅
Google TTS ⭐⭐⭐⭐⭐
300~700ms
⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐⭐
极自然
⭐⭐⭐⭐⭐ ⭐⭐⭐
国内不稳定
极低
仅需网络
HA 官方内置
⭐⭐⭐⭐⭐
⚠️ 国内慎用
OpenAI TTS ⭐⭐⭐⭐⭐
500ms~1.5s
⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐⭐
极自然
⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ 极低
仅需网络
无官方支持
需自定义组件
⭐⭐⭐

自托管 AI 方案

方案 音质 速度 中文 英文 中英混合 流畅度 稳定性 所需资源 HA 支持 推荐度
Kokoro TTS ⭐⭐⭐⭐⭐ CPU:1~2s
GPU:~200ms
⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐
良好
⭐⭐⭐⭐ ⭐⭐⭐⭐
CPU 可用
内存~2GB
模型 300MB
无官方支持
REST API 对接
⭐⭐⭐
✅✅
CosyVoice ⭐⭐⭐⭐⭐ CPU:5~15s❌
GPU:~300ms
⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐
顶级
⭐⭐⭐⭐⭐ ⭐⭐⭐⭐
强烈推荐 GPU
显存 ≥6GB
模型~2GB
无官方支持
REST API 对接
⭐⭐⭐
✅✅✅
有 GPU
ChatTTS ⭐⭐⭐⭐⭐ CPU:3~8s
GPU:~500ms
⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐⭐
良好
⭐⭐⭐⭐⭐
最自然
⭐⭐⭐
项目不稳定

推荐 GPU
显存 ≥6GB
模型~1.5GB
无官方支持
REST API 对接
⭐⭐⭐
✅✅
Fish Speech ⭐⭐⭐⭐⭐ CPU:3~8s
GPU:~300ms
⭐⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐⭐
顶级
⭐⭐⭐⭐⭐ ⭐⭐⭐⭐
推荐 GPU
显存 ≥6GB
模型~1GB
无官方支持
REST API 对接
⭐⭐⭐
✅✅✅
有 GPU
EmotiVoice ⭐⭐⭐⭐⭐ CPU:3~8s
GPU:~500ms
⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐⭐
良好
⭐⭐⭐⭐ ⭐⭐⭐
维护一般

推荐 GPU
显存 ≥6GB
模型~1GB
无官方支持
REST API 对接
⭐⭐⭐
XTTS/Coqui ⭐⭐⭐⭐ CPU:5~10s
GPU:~500ms
⭐⭐⭐
非强项
⭐⭐⭐⭐⭐ ⭐⭐⭐
一般
⭐⭐⭐⭐ ⭐⭐⭐⭐
推荐 GPU
显存 ≥6GB
模型~1.8GB
无官方支持
REST API 对接
⭐⭐⭐
⚠️ 中文用户慎用
Bark ⭐⭐⭐⭐ CPU:30s+❌
GPU:2~5s
⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐
良好
⭐⭐⭐⭐ ⭐⭐⭐ 极高
必须 GPU
显存 ≥8GB
模型~5GB
无官方支持
REST API 对接
⭐⭐⭐
❌太慢

HA 支持详细说明

⭐⭐⭐⭐⭐  官方内置
         └── 直接在HA集成页面添加
         └── 代表:Azure TTS / Google TTS / Piper / espeak-ng

⭐⭐⭐⭐   HACS插件支持
         └── HACS一键安装,配置简单
         └── 代表:Edge TTS / 百度TTS

⭐⭐⭐     需要自定义组件 或 REST API对接
         └── 手动安装组件或写自动化调用API
         └── 代表:讯飞/阿里/腾讯/所有自托管方案

⭐⭐       几乎无社区支持
         └── 需要自己写集成代码
         └── 代表:Festival / MaryTTS

关键维度单项排名

🏆 速度排名(延迟从低到高)

1. espeak-ng      ~20ms    (本地,但音质差)
2. Piper          ~50ms    (本地,但不稳定)
3. 讯飞/阿里云    200~500ms (云端中文最快)
4. Azure TTS      200~500ms
5. Edge TTS       300~800ms
6. CosyVoice      ~300ms   (有GPU)
7. Fish Speech    ~300ms   (有GPU)
8. Kokoro         ~200ms   (有GPU)/ 1~2s(CPU)
9. OpenAI TTS     500ms~1.5s
10. Bark          2~5s     (GPU)/ 30s+(CPU)❌

🏆 中英文混合排名

1. 讯飞TTS        ⭐⭐⭐⭐⭐  业界标杆
1. Edge TTS       ⭐⭐⭐⭐⭐  微软神经网络天然支持
1. Azure TTS      ⭐⭐⭐⭐⭐  同Edge TTS内核
1. CosyVoice      ⭐⭐⭐⭐⭐  自托管最强
1. Fish Speech    ⭐⭐⭐⭐⭐  自托管最强
5. 阿里云TTS      ⭐⭐⭐⭐⭐
6. OpenAI TTS     ⭐⭐⭐⭐⭐  英文为主时极强
7. 百度/腾讯TTS   ⭐⭐⭐⭐
8. Kokoro         ⭐⭐⭐⭐
9. ChatTTS        ⭐⭐⭐⭐
10. Piper         ⭐⭐    切换生硬
11. espeak-ng     ⭐     基本不可用

🏆 资源占用排名(从低到高)

最低(仅需网络)
├── Edge TTS / 讯飞 / 阿里 / 百度 / 腾讯 / Azure / Google / OpenAI

低(本地CPU,内存<500MB)
├── espeak-ng / Piper / Festival

中(本地CPU,内存2~4GB)
├── Kokoro TTS

高(需要GPU,显存6GB+)
├── CosyVoice / ChatTTS / Fish Speech / EmotiVoice / XTTS

极高(必须GPU,显存8GB+)
└── Bark

🏆 HA 集成难度排名(从易到难)

最简单(官方内置)
├── Piper / espeak-ng / Azure TTS / Google TTS

简单(HACS一键)
├── Edge TTS / 百度TTS

中等(手动安装自定义组件)
├── 讯飞TTS / 阿里云TTS / 腾讯云TTS

较复杂(需部署独立服务+REST API对接)
└── 所有自托管AI方案(Kokoro/CosyVoice/ChatTTS/Fish Speech等)

最终选择决策树

你的核心需求是什么?
│
├── 🎯 简单省事,音质还不错
│   └── ✅ Edge TTS
│       免费+高音质+HACS一键+中英混合好
│
├── 🎯 中文音质最强,可以联网
│   └── ✅ 讯飞TTS 或 阿里云TTS
│       中文天花板,有免费额度
│
├── 🎯 完全不依赖外网
│   ├── 有GPU服务器 → ✅ CosyVoice 或 Fish Speech
│   ├── 只有CPU/NAS → ✅ Kokoro TTS(接受1~2s延迟)
│   └── 树莓派/低功耗 → ⚠️ Piper(接受音质差)
│
├── 🎯 想用自己的声音播报
│   └── ✅ Fish Speech(声音克隆)
│
├── 🎯 预算充足,要最稳定
│   └── ✅ Azure TTS(官方内置+企业级稳定)
│
└── 🎯 英文为主的环境
    └── ✅ OpenAI TTS 或 XTTS

综合推荐:

  • 90% 的中文用户Edge TTS 足够了
  • 追求极致中文讯飞TTS
  • 有 GPU 想自托管CosyVoice​ 或 Fish Speech
  • Piper 已经可以退休了

评论