Evan
发布于 2026-05-28 / 2 阅读
0
0

HA 语音助手完整生态

2026-04-14 HA 语音助手完整生态

一、唤醒词服务 (Wake Word)

服务 运行位置 唤醒词 自定义 精度 资源占用
openWakeWord 本地 多种预设 ✅可训练 ⭐⭐⭐⭐
ESP-SR ESP32 本地 预设 ⭐有限 ⭐⭐⭐ 极低
Porcupine 云端授权 多种 ✅付费 ⭐⭐⭐⭐⭐
Snowboy 本地(停更) 自定义 ⭐⭐⭐
Willow ESP32 本地 预设 ⭐有限 ⭐⭐⭐⭐ 极低
Wyoming openWakeWord 本地 Wyoming 多种 ⭐⭐⭐⭐

二、STT 语音识别服务

本地方案

服务 模型 中文 中英混合 速度 资源
faster-whisper tiny/base/small/medium/large ⭐⭐⭐ ⭐⭐ 低~高
Whisper (原版) 同上 ⭐⭐⭐ ⭐⭐
SenseVoice Small/Large ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ 极快
Vosk 多种 ⭐⭐⭐ ⭐⭐ 极快 极低
Sherpa-ONNX 多种 ⭐⭐⭐⭐ ⭐⭐⭐
WhisperX 同 Whisper ⭐⭐⭐ ⭐⭐⭐ 较快

云端方案

服务 中文 中英混合 费用 隐私
讯飞 API ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ 免费额度 ☁️
百度 API ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ 免费额度 ☁️
阿里云 API ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ 免费额度 ☁️
OpenAI Whisper API ⭐⭐⭐⭐ ⭐⭐⭐⭐ 付费 ☁️ 境外
Azure STT ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ 付费 ☁️ 境外
Google STT ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ 付费 ☁️ 境外
Nabu Casa ⭐⭐⭐⭐ ⭐⭐⭐ $6.5/月 ☁️

三、TTS 语音合成服务

本地方案

服务 中文 音质 速度 资源
Piper ⭐⭐⭐ ⭐⭐⭐ 极快 极低
CosyVoice ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ 中等
ChatTTS ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ 中等
XTTS ⭐⭐⭐ ⭐⭐⭐⭐
edge-tts ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ 极低
MeloTTS ⭐⭐⭐⭐ ⭐⭐⭐⭐
Bark ⭐⭐⭐ ⭐⭐⭐⭐ 极慢 极高

云端方案

服务 中文音质 费用 隐私
讯飞 TTS ⭐⭐⭐⭐⭐ 免费额度 ☁️
阿里云 TTS ⭐⭐⭐⭐⭐ 免费额度 ☁️
Azure TTS ⭐⭐⭐⭐⭐ 付费 ☁️ 境外
Google TTS ⭐⭐⭐⭐ 付费 ☁️ 境外
OpenAI TTS ⭐⭐⭐⭐ 付费 ☁️ 境外
edge-tts (微软) ⭐⭐⭐⭐⭐ 免费 ☁️
Nabu Casa ⭐⭐⭐⭐ $6.5/月 ☁️

四、麦克风/扬声器服务

服务 硬件 唤醒词 难度 特点
Wyoming Satellite 树莓派/任意 Linux 支持 ⭐⭐⭐ 最灵活
ESP32-S3 Box 乐鑫官方硬件 ✅内置 ⭐⭐ 即插即用
ESP32 + INMP441 自制 ESP-SR ⭐⭐⭐⭐ 最便宜
Willow ESP32-S3 ✅内置 ⭐⭐ 开源完整方案
Google Home 商业硬件 ✅内置 不支持本地 HA
Amazon Echo 商业硬件 ✅内置 ⭐⭐ 有限 HA 支持
USB 麦克风 + 树莓派 通用 openWakeWord ⭐⭐⭐ 灵活
ReSpeaker 专业麦克风阵列 支持 ⭐⭐⭐ 降噪好

五、对话代理 (Agent/LLM)

服务 运行位置 中文 智能度 费用
HA 内置 Assist 本地 ⭐⭐⭐ ⭐⭐ 免费
Ollama (本地 LLM) 本地 ⭐⭐⭐⭐ ⭐⭐⭐⭐ 免费
OpenAI GPT 云端 ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ 付费
Claude API 云端 ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ 付费
OpenClaw 本地 ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ 免费
Gemini API 云端 ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ 免费额度
通义千问 API 云端 ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ 免费额度
文心一言 API 云端 ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ 免费额度

六、可串联的完整方案

方案 A:全本地极简版

ESP32 + INMP441 (麦克风)
    ↓ Wyoming Satellite
openWakeWord (唤醒词)
    ↓
faster-whisper base (STT)
    ↓
HA Assist (对话)
    ↓
Piper (TTS)
    ↓
ESP32 扬声器

特点:全离线,资源少,精度一般
适合:老旧硬件,简单控制

方案 B:本地高精度版(你的情况)

ESP32-S3 (麦克风+扬声器)
    ↓ Wyoming Satellite
openWakeWord (唤醒词)
    ↓
SenseVoice-Small CPU (STT) ← 解决中英混合
    ↓
Ollama + Qwen2.5 (对话) ← 你已经有了
    ↓
edge-tts 或 CosyVoice (TTS) ← 中文音质好
    ↓
ESP32 扬声器

特点:全离线,中文最强,需要一定硬件
适合:你现在的情况!

方案 C:云端高质量版

ESP32 (麦克风+扬声器)
    ↓ Wyoming Satellite
openWakeWord (唤醒词)
    ↓
讯飞 STT API (识别)
    ↓
通义千问 API (对话)
    ↓
讯飞 TTS API (合成)
    ↓
ESP32 扬声器

特点:精度最高,需要网络和API账号
适合:对精度要求高,不在意隐私

方案 D:ESP32 全本地版

ESP32-S3 Box
    ↓ 内置
ESP-SR 唤醒词
    ↓
ESP-SR 命令词识别
    ↓
直接控制HA (HTTP API)
    ↓
不需要TTS(蜂鸣器提示音)

特点:完全离线,极低延迟
适合:只需要固定命令控制

方案 E:Willow 完整方案

ESP32-S3 硬件
    ↓
Willow 固件(唤醒词内置)
    ↓
Willow Application Server
    ↓ 可选后端
faster-whisper / 云端STT
    ↓
HA Assist / OpenAI
    ↓
Piper / 云端TTS

特点:专为ESP32设计,配置界面友好

七、你的最优方案推荐

硬件:Lenovo Y50 (i5-4210H)
现有:Ollama 已运行

推荐:方案B 改进版

唤醒词:openWakeWord        ← 免费灵活
STT:   SenseVoice-Small    ← 中英混合最强
代理:  Ollama + Qwen2.5    ← 已有!
TTS:   edge-tts            ← 免费中文好
硬件:  ESP32-S3 + Wyoming  ← 最便宜方案

评论