2026-04-19 TTS 方案横向终极对比表

说明几个维度的评判标准

速度：        从调用到开始出声的延迟
所需资源：    运行该方案需要的硬件
中英混合：    同一句话中英文混读的自然度
流畅度：      长句子/复杂句子的连贯性
HA支持：      接入HA的难易程度和官方支持情况

完整横向对比表

本地离线方案

方案	音质	速度	中文	英文	中英混合	流畅度	稳定性	所需资源	HA 支持	推荐度
Piper	⭐⭐⭐	极快 ~50ms	⭐⭐	⭐⭐⭐	⭐⭐ 切换生硬	⭐⭐⭐	⭐⭐ 易崩溃	极低树莓派可用内存<200MB	官方内置 Wyoming 协议 ⭐⭐⭐⭐⭐	❌
espeak-ng	⭐	极快 ~20ms	⭐	⭐⭐	⭐ 极差	⭐⭐	⭐⭐⭐⭐⭐	极低内存<50MB	官方内置 ⭐⭐⭐⭐⭐	❌
Festival	⭐⭐	快 ~100ms	⭐	⭐⭐⭐	⭐ 极差	⭐⭐	⭐⭐⭐	低内存<100MB	无官方支持需自定义 ⭐⭐	❌
MaryTTS	⭐⭐⭐	中 ~300ms	⭐⭐	⭐⭐⭐	⭐⭐ 一般	⭐⭐⭐	⭐⭐⭐	中需 Java 环境内存~500MB	无官方支持 REST API ⭐⭐	❌

云端方案

方案	音质	速度	中文	英文	中英混合	流畅度	稳定性	所需资源	HA 支持	推荐度
Edge TTS	⭐⭐⭐⭐⭐	中 300~800ms	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐ 极自然	⭐⭐⭐⭐⭐	⭐⭐⭐⭐ 依赖网络	极低仅需网络	HACS 插件配置简单 ⭐⭐⭐⭐	✅✅✅
讯飞 TTS	⭐⭐⭐⭐⭐	快 200~500ms	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐ 业界最强	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	极低仅需网络	无官方支持需自定义组件 ⭐⭐⭐	✅✅✅
阿里云 TTS	⭐⭐⭐⭐⭐	快 200~500ms	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐ 极自然	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	极低仅需网络	无官方支持需自定义组件 ⭐⭐⭐	✅✅✅
百度 TTS	⭐⭐⭐⭐	中 300~600ms	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐ 良好	⭐⭐⭐⭐	⭐⭐⭐⭐	极低仅需网络	HACS 有插件 ⭐⭐⭐⭐	✅✅
腾讯云 TTS	⭐⭐⭐⭐	中 300~600ms	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐ 良好	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	极低仅需网络	无官方支持需自定义组件 ⭐⭐⭐	✅✅
Azure TTS	⭐⭐⭐⭐⭐	快 200~500ms	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐ 极自然	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐ 企业级	极低仅需网络	HA 官方内置 ⭐⭐⭐⭐⭐	✅✅✅
Google TTS	⭐⭐⭐⭐⭐	中 300~700ms	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐ 极自然	⭐⭐⭐⭐⭐	⭐⭐⭐ 国内不稳定	极低仅需网络	HA 官方内置 ⭐⭐⭐⭐⭐	⚠️ 国内慎用
OpenAI TTS	⭐⭐⭐⭐⭐	慢 500ms~1.5s	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐ 极自然	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	极低仅需网络	无官方支持需自定义组件 ⭐⭐⭐	✅

自托管 AI 方案

方案	音质	速度	中文	英文	中英混合	流畅度	稳定性	所需资源	HA 支持	推荐度
Kokoro TTS	⭐⭐⭐⭐⭐	CPU:1~2s GPU:~200ms	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐ 良好	⭐⭐⭐⭐	⭐⭐⭐⭐	低 CPU 可用内存~2GB 模型 300MB	无官方支持 REST API 对接 ⭐⭐⭐	✅✅
CosyVoice	⭐⭐⭐⭐⭐	CPU:5~15s❌ GPU:~300ms	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐ 顶级	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	高强烈推荐 GPU 显存 ≥6GB 模型~2GB	无官方支持 REST API 对接 ⭐⭐⭐	✅✅✅ 有 GPU
ChatTTS	⭐⭐⭐⭐⭐	CPU:3~8s GPU:~500ms	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐ 良好	⭐⭐⭐⭐⭐ 最自然	⭐⭐⭐ 项目不稳定	高推荐 GPU 显存 ≥6GB 模型~1.5GB	无官方支持 REST API 对接 ⭐⭐⭐	✅✅
Fish Speech	⭐⭐⭐⭐⭐	CPU:3~8s GPU:~300ms	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐ 顶级	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	高推荐 GPU 显存 ≥6GB 模型~1GB	无官方支持 REST API 对接 ⭐⭐⭐	✅✅✅ 有 GPU
EmotiVoice	⭐⭐⭐⭐⭐	CPU:3~8s GPU:~500ms	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐ 良好	⭐⭐⭐⭐	⭐⭐⭐ 维护一般	高推荐 GPU 显存 ≥6GB 模型~1GB	无官方支持 REST API 对接 ⭐⭐⭐	✅
XTTS/Coqui	⭐⭐⭐⭐	CPU:5~10s GPU:~500ms	⭐⭐⭐ 非强项	⭐⭐⭐⭐⭐	⭐⭐⭐ 一般	⭐⭐⭐⭐	⭐⭐⭐⭐	高推荐 GPU 显存 ≥6GB 模型~1.8GB	无官方支持 REST API 对接 ⭐⭐⭐	⚠️ 中文用户慎用
Bark	⭐⭐⭐⭐	CPU:30s+❌ GPU:2~5s	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐ 良好	⭐⭐⭐⭐	⭐⭐⭐	极高必须 GPU 显存 ≥8GB 模型~5GB	无官方支持 REST API 对接 ⭐⭐⭐	❌太慢

HA 支持详细说明

⭐⭐⭐⭐⭐  官方内置
         └── 直接在HA集成页面添加
         └── 代表：Azure TTS / Google TTS / Piper / espeak-ng

⭐⭐⭐⭐   HACS插件支持
         └── HACS一键安装，配置简单
         └── 代表：Edge TTS / 百度TTS

⭐⭐⭐     需要自定义组件 或 REST API对接
         └── 手动安装组件或写自动化调用API
         └── 代表：讯飞/阿里/腾讯/所有自托管方案

⭐⭐       几乎无社区支持
         └── 需要自己写集成代码
         └── 代表：Festival / MaryTTS

关键维度单项排名

🏆 速度排名（延迟从低到高）

1. espeak-ng      ~20ms    （本地，但音质差）
2. Piper          ~50ms    （本地，但不稳定）
3. 讯飞/阿里云    200~500ms （云端中文最快）
4. Azure TTS      200~500ms
5. Edge TTS       300~800ms
6. CosyVoice      ~300ms   （有GPU）
7. Fish Speech    ~300ms   （有GPU）
8. Kokoro         ~200ms   （有GPU）/ 1~2s（CPU）
9. OpenAI TTS     500ms~1.5s
10. Bark          2~5s     （GPU）/ 30s+（CPU）❌

🏆 中英文混合排名

1. 讯飞TTS        ⭐⭐⭐⭐⭐  业界标杆
1. Edge TTS       ⭐⭐⭐⭐⭐  微软神经网络天然支持
1. Azure TTS      ⭐⭐⭐⭐⭐  同Edge TTS内核
1. CosyVoice      ⭐⭐⭐⭐⭐  自托管最强
1. Fish Speech    ⭐⭐⭐⭐⭐  自托管最强
5. 阿里云TTS      ⭐⭐⭐⭐⭐
6. OpenAI TTS     ⭐⭐⭐⭐⭐  英文为主时极强
7. 百度/腾讯TTS   ⭐⭐⭐⭐
8. Kokoro         ⭐⭐⭐⭐
9. ChatTTS        ⭐⭐⭐⭐
10. Piper         ⭐⭐    切换生硬
11. espeak-ng     ⭐     基本不可用

🏆 资源占用排名（从低到高）

最低（仅需网络）
├── Edge TTS / 讯飞 / 阿里 / 百度 / 腾讯 / Azure / Google / OpenAI

低（本地CPU，内存<500MB）
├── espeak-ng / Piper / Festival

中（本地CPU，内存2~4GB）
├── Kokoro TTS

高（需要GPU，显存6GB+）
├── CosyVoice / ChatTTS / Fish Speech / EmotiVoice / XTTS

极高（必须GPU，显存8GB+）
└── Bark

🏆 HA 集成难度排名（从易到难）

最简单（官方内置）
├── Piper / espeak-ng / Azure TTS / Google TTS

简单（HACS一键）
├── Edge TTS / 百度TTS

中等（手动安装自定义组件）
├── 讯飞TTS / 阿里云TTS / 腾讯云TTS

较复杂（需部署独立服务+REST API对接）
└── 所有自托管AI方案（Kokoro/CosyVoice/ChatTTS/Fish Speech等）

最终选择决策树

你的核心需求是什么？
│
├── 🎯 简单省事，音质还不错
│   └── ✅ Edge TTS
│       免费+高音质+HACS一键+中英混合好
│
├── 🎯 中文音质最强，可以联网
│   └── ✅ 讯飞TTS 或 阿里云TTS
│       中文天花板，有免费额度
│
├── 🎯 完全不依赖外网
│   ├── 有GPU服务器 → ✅ CosyVoice 或 Fish Speech
│   ├── 只有CPU/NAS → ✅ Kokoro TTS（接受1~2s延迟）
│   └── 树莓派/低功耗 → ⚠️ Piper（接受音质差）
│
├── 🎯 想用自己的声音播报
│   └── ✅ Fish Speech（声音克隆）
│
├── 🎯 预算充足，要最稳定
│   └── ✅ Azure TTS（官方内置+企业级稳定）
│
└── 🎯 英文为主的环境
    └── ✅ OpenAI TTS 或 XTTS

综合推荐：

90% 的中文用户 → Edge TTS 足够了

追求极致中文 → 讯飞TTS

有 GPU 想自托管 → CosyVoice 或 Fish Speech

Piper 已经可以退休了

菜单

分享

TTS 方案横向终极对比表

2026-04-19 TTS 方案横向终极对比表

说明几个维度的评判标准

完整横向对比表

本地离线方案

云端方案

自托管 AI 方案

HA 支持详细说明

关键维度单项排名

🏆 速度排名（延迟从低到高）

🏆 中英文混合排名

🏆 资源占用排名（从低到高）

🏆 HA 集成难度排名（从易到难）

最终选择决策树

评论

Docmost MCP 配置方法总结

自定义语音助手

SiYuan MCP 安装总结

HA 语音助手完整生态

电脑控制

MiniMax MCP 安装总结（Ubuntu／Linux）

CosyVoice 语音合成模型总结

PWM调光控制

TTS 方案横向终极对比表

设置TTS