Files
digital_person/app/note/design_doc
gcw_4spBpAfv 2f6166ab6c live2d model
2026-03-02 09:25:50 +08:00

57 lines
2.8 KiB
Plaintext
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

1. ## 🎯 当前使用的ASR模型
### 模型名称SenseVoice (RKNN版本)
### 模型架构:
- 编码器 : sense-voice-encoder.rknn - RKNN格式的神经网络模型
- 嵌入层 : embedding.npy - 词嵌入矩阵
- 分词器 : chn_jpn_yue_eng_ko_spectok.bpe.model - BPE分词模型
### 模型特点:
1. 多语言支持 - 支持中文、日文、粤语、英文、韩文
2. RKNN加速 - 针对RK3588等Rockchip芯片优化
3. ITN支持 - 启用了逆文本归一化Inverse Text Normalization提高数字/日期识别准确性
2. ## TTS模型信息
### 模型名称
Sherpa-ONNX VITS - 中文版本sherpa-onnx-vits-zh-ll
### 模型文件
位于 app/src/main/assets/tts_model/sherpa-onnx-vits-zh-ll/ 目录:
- model.onnx - ONNX格式的声学模型
- tokens.txt - 音素/字符映射表
- lexicon.txt - 发音词典
- phone.fst - 音素转换规则
- date.fst - 日期归一化规则
- number.fst - 数字归一化规则
- new_heteronym.fst - 多音字处理规则
3. ## VAD模型信息
### 模型名称
Silero VAD (Voice Activity Detection)
### 模型文件
- 文件路径: assets/vad_model/silero_vad.onnx
- 格式ONNX格式
4. 模型部署对比
模型 类型 格式 RKNN加速 推理设备 配置
ASR SenseVoice .rknn ✅ 是 NPU RKNN Runtime
VAD Silero VAD .onnx ❌ 否 CPU provider="cpu"
TTS Sherpa-ONNX VITS .onnx ❌ 否 CPU ONNX Runtime
┌─────────────────┐ ┌─────────────────┐ ┌─────────────────┐
│ AudioProcessor │────▶│ VadManager │────▶│ ASR Queue │
│ (录音+增益) │ │ (语音活动检测) │ │ (Channel队列) │
└─────────────────┘ └─────────────────┘ └─────────────────┘
┌─────────────────────────┘
┌─────────────────┐
│ runAsrWorker │
│ (协程工作器) │
└─────────────────┘
┌─────────────────┐
│ SenseVoice │
│ (RKNN推理) │
└─────────────────┘