2026-04-14 HA 语音助手完整生态
一、唤醒词服务 (Wake Word)
| 服务 |
运行位置 |
唤醒词 |
自定义 |
精度 |
资源占用 |
| openWakeWord |
本地 |
多种预设 |
✅可训练 |
⭐⭐⭐⭐ |
低 |
| ESP-SR |
ESP32 本地 |
预设 |
⭐有限 |
⭐⭐⭐ |
极低 |
| Porcupine |
云端授权 |
多种 |
✅付费 |
⭐⭐⭐⭐⭐ |
低 |
| Snowboy |
本地(停更) |
自定义 |
✅ |
⭐⭐⭐ |
低 |
| Willow |
ESP32 本地 |
预设 |
⭐有限 |
⭐⭐⭐⭐ |
极低 |
| Wyoming openWakeWord |
本地 Wyoming |
多种 |
✅ |
⭐⭐⭐⭐ |
低 |
二、STT 语音识别服务
本地方案
| 服务 |
模型 |
中文 |
中英混合 |
速度 |
资源 |
| faster-whisper |
tiny/base/small/medium/large |
⭐⭐⭐ |
⭐⭐ |
快 |
低~高 |
| Whisper (原版) |
同上 |
⭐⭐⭐ |
⭐⭐ |
慢 |
高 |
| SenseVoice |
Small/Large |
⭐⭐⭐⭐⭐ |
⭐⭐⭐⭐⭐ |
极快 |
低 |
| Vosk |
多种 |
⭐⭐⭐ |
⭐⭐ |
极快 |
极低 |
| Sherpa-ONNX |
多种 |
⭐⭐⭐⭐ |
⭐⭐⭐ |
快 |
低 |
| WhisperX |
同 Whisper |
⭐⭐⭐ |
⭐⭐⭐ |
较快 |
中 |
云端方案
| 服务 |
中文 |
中英混合 |
费用 |
隐私 |
| 讯飞 API |
⭐⭐⭐⭐⭐ |
⭐⭐⭐⭐⭐ |
免费额度 |
☁️ |
| 百度 API |
⭐⭐⭐⭐⭐ |
⭐⭐⭐⭐ |
免费额度 |
☁️ |
| 阿里云 API |
⭐⭐⭐⭐⭐ |
⭐⭐⭐⭐⭐ |
免费额度 |
☁️ |
| OpenAI Whisper API |
⭐⭐⭐⭐ |
⭐⭐⭐⭐ |
付费 |
☁️ 境外 |
| Azure STT |
⭐⭐⭐⭐⭐ |
⭐⭐⭐⭐⭐ |
付费 |
☁️ 境外 |
| Google STT |
⭐⭐⭐⭐⭐ |
⭐⭐⭐⭐⭐ |
付费 |
☁️ 境外 |
| Nabu Casa |
⭐⭐⭐⭐ |
⭐⭐⭐ |
$6.5/月 |
☁️ |
三、TTS 语音合成服务
本地方案
| 服务 |
中文 |
音质 |
速度 |
资源 |
| Piper |
⭐⭐⭐ |
⭐⭐⭐ |
极快 |
极低 |
| CosyVoice |
⭐⭐⭐⭐⭐ |
⭐⭐⭐⭐⭐ |
中等 |
高 |
| ChatTTS |
⭐⭐⭐⭐⭐ |
⭐⭐⭐⭐⭐ |
中等 |
高 |
| XTTS |
⭐⭐⭐ |
⭐⭐⭐⭐ |
慢 |
高 |
| edge-tts |
⭐⭐⭐⭐⭐ |
⭐⭐⭐⭐ |
快 |
极低 |
| MeloTTS |
⭐⭐⭐⭐ |
⭐⭐⭐⭐ |
快 |
低 |
| Bark |
⭐⭐⭐ |
⭐⭐⭐⭐ |
极慢 |
极高 |
云端方案
| 服务 |
中文音质 |
费用 |
隐私 |
| 讯飞 TTS |
⭐⭐⭐⭐⭐ |
免费额度 |
☁️ |
| 阿里云 TTS |
⭐⭐⭐⭐⭐ |
免费额度 |
☁️ |
| Azure TTS |
⭐⭐⭐⭐⭐ |
付费 |
☁️ 境外 |
| Google TTS |
⭐⭐⭐⭐ |
付费 |
☁️ 境外 |
| OpenAI TTS |
⭐⭐⭐⭐ |
付费 |
☁️ 境外 |
| edge-tts (微软) |
⭐⭐⭐⭐⭐ |
免费 |
☁️ |
| Nabu Casa |
⭐⭐⭐⭐ |
$6.5/月 |
☁️ |
四、麦克风/扬声器服务
| 服务 |
硬件 |
唤醒词 |
难度 |
特点 |
| Wyoming Satellite |
树莓派/任意 Linux |
支持 |
⭐⭐⭐ |
最灵活 |
| ESP32-S3 Box |
乐鑫官方硬件 |
✅内置 |
⭐⭐ |
即插即用 |
| ESP32 + INMP441 |
自制 |
ESP-SR |
⭐⭐⭐⭐ |
最便宜 |
| Willow |
ESP32-S3 |
✅内置 |
⭐⭐ |
开源完整方案 |
| Google Home |
商业硬件 |
✅内置 |
⭐ |
不支持本地 HA |
| Amazon Echo |
商业硬件 |
✅内置 |
⭐⭐ |
有限 HA 支持 |
| USB 麦克风 + 树莓派 |
通用 |
openWakeWord |
⭐⭐⭐ |
灵活 |
| ReSpeaker |
专业麦克风阵列 |
支持 |
⭐⭐⭐ |
降噪好 |
五、对话代理 (Agent/LLM)
| 服务 |
运行位置 |
中文 |
智能度 |
费用 |
| HA 内置 Assist |
本地 |
⭐⭐⭐ |
⭐⭐ |
免费 |
| Ollama (本地 LLM) |
本地 |
⭐⭐⭐⭐ |
⭐⭐⭐⭐ |
免费 |
| OpenAI GPT |
云端 |
⭐⭐⭐⭐⭐ |
⭐⭐⭐⭐⭐ |
付费 |
| Claude API |
云端 |
⭐⭐⭐⭐⭐ |
⭐⭐⭐⭐⭐ |
付费 |
| OpenClaw |
本地 |
⭐⭐⭐⭐⭐ |
⭐⭐⭐⭐⭐ |
免费 |
| Gemini API |
云端 |
⭐⭐⭐⭐⭐ |
⭐⭐⭐⭐⭐ |
免费额度 |
| 通义千问 API |
云端 |
⭐⭐⭐⭐⭐ |
⭐⭐⭐⭐⭐ |
免费额度 |
| 文心一言 API |
云端 |
⭐⭐⭐⭐⭐ |
⭐⭐⭐⭐⭐ |
免费额度 |
六、可串联的完整方案
方案 A:全本地极简版
ESP32 + INMP441 (麦克风)
↓ Wyoming Satellite
openWakeWord (唤醒词)
↓
faster-whisper base (STT)
↓
HA Assist (对话)
↓
Piper (TTS)
↓
ESP32 扬声器
特点:全离线,资源少,精度一般
适合:老旧硬件,简单控制
方案 B:本地高精度版(你的情况)
ESP32-S3 (麦克风+扬声器)
↓ Wyoming Satellite
openWakeWord (唤醒词)
↓
SenseVoice-Small CPU (STT) ← 解决中英混合
↓
Ollama + Qwen2.5 (对话) ← 你已经有了
↓
edge-tts 或 CosyVoice (TTS) ← 中文音质好
↓
ESP32 扬声器
特点:全离线,中文最强,需要一定硬件
适合:你现在的情况!
方案 C:云端高质量版
ESP32 (麦克风+扬声器)
↓ Wyoming Satellite
openWakeWord (唤醒词)
↓
讯飞 STT API (识别)
↓
通义千问 API (对话)
↓
讯飞 TTS API (合成)
↓
ESP32 扬声器
特点:精度最高,需要网络和API账号
适合:对精度要求高,不在意隐私
方案 D:ESP32 全本地版
ESP32-S3 Box
↓ 内置
ESP-SR 唤醒词
↓
ESP-SR 命令词识别
↓
直接控制HA (HTTP API)
↓
不需要TTS(蜂鸣器提示音)
特点:完全离线,极低延迟
适合:只需要固定命令控制
方案 E:Willow 完整方案
ESP32-S3 硬件
↓
Willow 固件(唤醒词内置)
↓
Willow Application Server
↓ 可选后端
faster-whisper / 云端STT
↓
HA Assist / OpenAI
↓
Piper / 云端TTS
特点:专为ESP32设计,配置界面友好
七、你的最优方案推荐
硬件:Lenovo Y50 (i5-4210H)
现有:Ollama 已运行
推荐:方案B 改进版
唤醒词:openWakeWord ← 免费灵活
STT: SenseVoice-Small ← 中英混合最强
代理: Ollama + Qwen2.5 ← 已有!
TTS: edge-tts ← 免费中文好
硬件: ESP32-S3 + Wyoming ← 最便宜方案