live2d model
This commit is contained in:
57
app/note/design_doc
Normal file
57
app/note/design_doc
Normal file
@@ -0,0 +1,57 @@
|
||||
1. ## 🎯 当前使用的ASR模型
|
||||
### 模型名称:SenseVoice (RKNN版本)
|
||||
### 模型架构:
|
||||
- 编码器 : sense-voice-encoder.rknn - RKNN格式的神经网络模型
|
||||
- 嵌入层 : embedding.npy - 词嵌入矩阵
|
||||
- 分词器 : chn_jpn_yue_eng_ko_spectok.bpe.model - BPE分词模型
|
||||
### 模型特点:
|
||||
1. 多语言支持 - 支持中文、日文、粤语、英文、韩文
|
||||
2. RKNN加速 - 针对RK3588等Rockchip芯片优化
|
||||
3. ITN支持 - 启用了逆文本归一化(Inverse Text Normalization),提高数字/日期识别准确性
|
||||
|
||||
2. ## TTS模型信息
|
||||
### 模型名称
|
||||
Sherpa-ONNX VITS - 中文版本(sherpa-onnx-vits-zh-ll)
|
||||
|
||||
### 模型文件
|
||||
位于 app/src/main/assets/tts_model/sherpa-onnx-vits-zh-ll/ 目录:
|
||||
|
||||
- model.onnx - ONNX格式的声学模型
|
||||
- tokens.txt - 音素/字符映射表
|
||||
- lexicon.txt - 发音词典
|
||||
- phone.fst - 音素转换规则
|
||||
- date.fst - 日期归一化规则
|
||||
- number.fst - 数字归一化规则
|
||||
- new_heteronym.fst - 多音字处理规则
|
||||
|
||||
3. ## VAD模型信息
|
||||
### 模型名称
|
||||
Silero VAD (Voice Activity Detection)
|
||||
|
||||
### 模型文件
|
||||
- 文件路径: assets/vad_model/silero_vad.onnx
|
||||
- 格式:ONNX格式
|
||||
|
||||
4. 模型部署对比
|
||||
模型 类型 格式 RKNN加速 推理设备 配置
|
||||
ASR SenseVoice .rknn ✅ 是 NPU RKNN Runtime
|
||||
VAD Silero VAD .onnx ❌ 否 CPU provider="cpu"
|
||||
TTS Sherpa-ONNX VITS .onnx ❌ 否 CPU ONNX Runtime
|
||||
|
||||
┌─────────────────┐ ┌─────────────────┐ ┌─────────────────┐
|
||||
│ AudioProcessor │────▶│ VadManager │────▶│ ASR Queue │
|
||||
│ (录音+增益) │ │ (语音活动检测) │ │ (Channel队列) │
|
||||
└─────────────────┘ └─────────────────┘ └─────────────────┘
|
||||
│
|
||||
┌─────────────────────────┘
|
||||
▼
|
||||
┌─────────────────┐
|
||||
│ runAsrWorker │
|
||||
│ (协程工作器) │
|
||||
└─────────────────┘
|
||||
│
|
||||
▼
|
||||
┌─────────────────┐
|
||||
│ SenseVoice │
|
||||
│ (RKNN推理) │
|
||||
└─────────────────┘
|
||||
Reference in New Issue
Block a user