设置 STT
方案概述
语音识别(STT)使用阿里开源的 SenseVoice 模型,通过 Docker 容器 + Wyoming 协议部署,直接接入 Home Assistant。
选型理由
| 对比项 | SenseVoice | faster-whisper |
|---|---|---|
| 识别速度 | ✅ 快 | ❌ 较慢 |
| 中文准确率 | ✅ 高 | ⚠️ 一般 |
| 中英混合 | ✅ 友好 | ❌ 不友好 |
| 部署方式 | Docker + Wyoming | Docker + Wyoming |
结论:SenseVoice 是当前本地部署中文 STT 的最佳选择。
部署信息
| 项目 | 详情 |
|---|---|
| 模型 | 阿里 SenseVoice(本地部署) |
| 部署仓库 | docker_wyoming_sensevoice |
| 接入方式 | Docker 容器 → Wyoming 协议 → HA |
| 特点 | 输出带情绪标签的文本(`< |
注意事项
SenseVoice 输出的文本带有 STT 标签(如 <|zh|> <|NEUTRAL|>),这些标签在后续的意图匹配过程中由 Smart Conversation 自动清除,同时原始文本(含情绪标签)会保留给 LLM 使用。