2026-04-19 TTS 方案横向终极对比表
说明几个维度的评判标准
速度: 从调用到开始出声的延迟
所需资源: 运行该方案需要的硬件
中英混合: 同一句话中英文混读的自然度
流畅度: 长句子/复杂句子的连贯性
HA支持: 接入HA的难易程度和官方支持情况
完整横向对比表
本地离线方案
| 方案 | 音质 | 速度 | 中文 | 英文 | 中英混合 | 流畅度 | 稳定性 | 所需资源 | HA 支持 | 推荐度 |
|---|---|---|---|---|---|---|---|---|---|---|
| Piper | ⭐⭐⭐ | 极快 ~50ms |
⭐⭐ | ⭐⭐⭐ | ⭐⭐ 切换生硬 |
⭐⭐⭐ | ⭐⭐ 易崩溃 |
极低 树莓派可用 内存<200MB |
官方内置 Wyoming 协议 ⭐⭐⭐⭐⭐ |
❌ |
| espeak-ng | ⭐ | 极快 ~20ms |
⭐ | ⭐⭐ | ⭐ 极差 |
⭐⭐ | ⭐⭐⭐⭐⭐ | 极低 内存<50MB |
官方内置 ⭐⭐⭐⭐⭐ |
❌ |
| Festival | ⭐⭐ | 快 ~100ms |
⭐ | ⭐⭐⭐ | ⭐ 极差 |
⭐⭐ | ⭐⭐⭐ | 低 内存<100MB |
无官方支持 需自定义 ⭐⭐ |
❌ |
| MaryTTS | ⭐⭐⭐ | 中 ~300ms |
⭐⭐ | ⭐⭐⭐ | ⭐⭐ 一般 |
⭐⭐⭐ | ⭐⭐⭐ | 中 需 Java 环境 内存~500MB |
无官方支持 REST API ⭐⭐ |
❌ |
云端方案
| 方案 | 音质 | 速度 | 中文 | 英文 | 中英混合 | 流畅度 | 稳定性 | 所需资源 | HA 支持 | 推荐度 |
|---|---|---|---|---|---|---|---|---|---|---|
| Edge TTS | ⭐⭐⭐⭐⭐ | 中 300~800ms |
⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ 极自然 |
⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ 依赖网络 |
极低 仅需网络 |
HACS 插件 配置简单 ⭐⭐⭐⭐ |
✅✅✅ |
| 讯飞 TTS | ⭐⭐⭐⭐⭐ | 快 200~500ms |
⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ 业界最强 |
⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | 极低 仅需网络 |
无官方支持 需自定义组件 ⭐⭐⭐ |
✅✅✅ |
| 阿里云 TTS | ⭐⭐⭐⭐⭐ | 快 200~500ms |
⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ 极自然 |
⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | 极低 仅需网络 |
无官方支持 需自定义组件 ⭐⭐⭐ |
✅✅✅ |
| 百度 TTS | ⭐⭐⭐⭐ | 中 300~600ms |
⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ 良好 |
⭐⭐⭐⭐ | ⭐⭐⭐⭐ | 极低 仅需网络 |
HACS 有插件 ⭐⭐⭐⭐ |
✅✅ |
| 腾讯云 TTS | ⭐⭐⭐⭐ | 中 300~600ms |
⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ 良好 |
⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | 极低 仅需网络 |
无官方支持 需自定义组件 ⭐⭐⭐ |
✅✅ |
| Azure TTS | ⭐⭐⭐⭐⭐ | 快 200~500ms |
⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ 极自然 |
⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ 企业级 |
极低 仅需网络 |
HA 官方内置 ⭐⭐⭐⭐⭐ |
✅✅✅ |
| Google TTS | ⭐⭐⭐⭐⭐ | 中 300~700ms |
⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ 极自然 |
⭐⭐⭐⭐⭐ | ⭐⭐⭐ 国内不稳定 |
极低 仅需网络 |
HA 官方内置 ⭐⭐⭐⭐⭐ |
⚠️ 国内慎用 |
| OpenAI TTS | ⭐⭐⭐⭐⭐ | 慢 500ms~1.5s |
⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ 极自然 |
⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | 极低 仅需网络 |
无官方支持 需自定义组件 ⭐⭐⭐ |
✅ |
自托管 AI 方案
| 方案 | 音质 | 速度 | 中文 | 英文 | 中英混合 | 流畅度 | 稳定性 | 所需资源 | HA 支持 | 推荐度 |
|---|---|---|---|---|---|---|---|---|---|---|
| Kokoro TTS | ⭐⭐⭐⭐⭐ | CPU:1~2s GPU:~200ms |
⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ 良好 |
⭐⭐⭐⭐ | ⭐⭐⭐⭐ | 低 CPU 可用 内存~2GB 模型 300MB |
无官方支持 REST API 对接 ⭐⭐⭐ |
✅✅ |
| CosyVoice | ⭐⭐⭐⭐⭐ | CPU:5~15s❌ GPU:~300ms |
⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ 顶级 |
⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | 高 强烈推荐 GPU 显存 ≥6GB 模型~2GB |
无官方支持 REST API 对接 ⭐⭐⭐ |
✅✅✅ 有 GPU |
| ChatTTS | ⭐⭐⭐⭐⭐ | CPU:3~8s GPU:~500ms |
⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ 良好 |
⭐⭐⭐⭐⭐ 最自然 |
⭐⭐⭐ 项目不稳定 |
高 推荐 GPU 显存 ≥6GB 模型~1.5GB |
无官方支持 REST API 对接 ⭐⭐⭐ |
✅✅ |
| Fish Speech | ⭐⭐⭐⭐⭐ | CPU:3~8s GPU:~300ms |
⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ 顶级 |
⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | 高 推荐 GPU 显存 ≥6GB 模型~1GB |
无官方支持 REST API 对接 ⭐⭐⭐ |
✅✅✅ 有 GPU |
| EmotiVoice | ⭐⭐⭐⭐⭐ | CPU:3~8s GPU:~500ms |
⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ 良好 |
⭐⭐⭐⭐ | ⭐⭐⭐ 维护一般 |
高 推荐 GPU 显存 ≥6GB 模型~1GB |
无官方支持 REST API 对接 ⭐⭐⭐ |
✅ |
| XTTS/Coqui | ⭐⭐⭐⭐ | CPU:5~10s GPU:~500ms |
⭐⭐⭐ 非强项 |
⭐⭐⭐⭐⭐ | ⭐⭐⭐ 一般 |
⭐⭐⭐⭐ | ⭐⭐⭐⭐ | 高 推荐 GPU 显存 ≥6GB 模型~1.8GB |
无官方支持 REST API 对接 ⭐⭐⭐ |
⚠️ 中文用户慎用 |
| Bark | ⭐⭐⭐⭐ | CPU:30s+❌ GPU:2~5s |
⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ 良好 |
⭐⭐⭐⭐ | ⭐⭐⭐ | 极高 必须 GPU 显存 ≥8GB 模型~5GB |
无官方支持 REST API 对接 ⭐⭐⭐ |
❌太慢 |
HA 支持详细说明
⭐⭐⭐⭐⭐ 官方内置
└── 直接在HA集成页面添加
└── 代表:Azure TTS / Google TTS / Piper / espeak-ng
⭐⭐⭐⭐ HACS插件支持
└── HACS一键安装,配置简单
└── 代表:Edge TTS / 百度TTS
⭐⭐⭐ 需要自定义组件 或 REST API对接
└── 手动安装组件或写自动化调用API
└── 代表:讯飞/阿里/腾讯/所有自托管方案
⭐⭐ 几乎无社区支持
└── 需要自己写集成代码
└── 代表:Festival / MaryTTS
关键维度单项排名
🏆 速度排名(延迟从低到高)
1. espeak-ng ~20ms (本地,但音质差)
2. Piper ~50ms (本地,但不稳定)
3. 讯飞/阿里云 200~500ms (云端中文最快)
4. Azure TTS 200~500ms
5. Edge TTS 300~800ms
6. CosyVoice ~300ms (有GPU)
7. Fish Speech ~300ms (有GPU)
8. Kokoro ~200ms (有GPU)/ 1~2s(CPU)
9. OpenAI TTS 500ms~1.5s
10. Bark 2~5s (GPU)/ 30s+(CPU)❌
🏆 中英文混合排名
1. 讯飞TTS ⭐⭐⭐⭐⭐ 业界标杆
1. Edge TTS ⭐⭐⭐⭐⭐ 微软神经网络天然支持
1. Azure TTS ⭐⭐⭐⭐⭐ 同Edge TTS内核
1. CosyVoice ⭐⭐⭐⭐⭐ 自托管最强
1. Fish Speech ⭐⭐⭐⭐⭐ 自托管最强
5. 阿里云TTS ⭐⭐⭐⭐⭐
6. OpenAI TTS ⭐⭐⭐⭐⭐ 英文为主时极强
7. 百度/腾讯TTS ⭐⭐⭐⭐
8. Kokoro ⭐⭐⭐⭐
9. ChatTTS ⭐⭐⭐⭐
10. Piper ⭐⭐ 切换生硬
11. espeak-ng ⭐ 基本不可用
🏆 资源占用排名(从低到高)
最低(仅需网络)
├── Edge TTS / 讯飞 / 阿里 / 百度 / 腾讯 / Azure / Google / OpenAI
低(本地CPU,内存<500MB)
├── espeak-ng / Piper / Festival
中(本地CPU,内存2~4GB)
├── Kokoro TTS
高(需要GPU,显存6GB+)
├── CosyVoice / ChatTTS / Fish Speech / EmotiVoice / XTTS
极高(必须GPU,显存8GB+)
└── Bark
🏆 HA 集成难度排名(从易到难)
最简单(官方内置)
├── Piper / espeak-ng / Azure TTS / Google TTS
简单(HACS一键)
├── Edge TTS / 百度TTS
中等(手动安装自定义组件)
├── 讯飞TTS / 阿里云TTS / 腾讯云TTS
较复杂(需部署独立服务+REST API对接)
└── 所有自托管AI方案(Kokoro/CosyVoice/ChatTTS/Fish Speech等)
最终选择决策树
你的核心需求是什么?
│
├── 🎯 简单省事,音质还不错
│ └── ✅ Edge TTS
│ 免费+高音质+HACS一键+中英混合好
│
├── 🎯 中文音质最强,可以联网
│ └── ✅ 讯飞TTS 或 阿里云TTS
│ 中文天花板,有免费额度
│
├── 🎯 完全不依赖外网
│ ├── 有GPU服务器 → ✅ CosyVoice 或 Fish Speech
│ ├── 只有CPU/NAS → ✅ Kokoro TTS(接受1~2s延迟)
│ └── 树莓派/低功耗 → ⚠️ Piper(接受音质差)
│
├── 🎯 想用自己的声音播报
│ └── ✅ Fish Speech(声音克隆)
│
├── 🎯 预算充足,要最稳定
│ └── ✅ Azure TTS(官方内置+企业级稳定)
│
└── 🎯 英文为主的环境
└── ✅ OpenAI TTS 或 XTTS
综合推荐:
- 90% 的中文用户 →
Edge TTS足够了- 追求极致中文 →
讯飞TTS- 有 GPU 想自托管 →
CosyVoice 或Fish Speech- Piper 已经可以退休了