Files
digital_person/app/note/design_doc
2026-03-05 13:55:57 +08:00

120 lines
4.4 KiB
Plaintext
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

1. ## 🎯 当前使用的ASR模型
### 模型名称SenseVoice (RKNN版本)
### 模型架构:
- 编码器 : sense-voice-encoder.rknn - RKNN格式的神经网络模型
- 嵌入层 : embedding.npy - 词嵌入矩阵
- 分词器 : chn_jpn_yue_eng_ko_spectok.bpe.model - BPE分词模型
### 模型特点:
1. 多语言支持 - 支持中文、日文、粤语、英文、韩文
2. RKNN加速 - 针对RK3588等Rockchip芯片优化
3. ITN支持 - 启用了逆文本归一化Inverse Text Normalization提高数字/日期识别准确性
2. ## TTS模型信息
### 模型名称
Sherpa-ONNX VITS - 中文版本sherpa-onnx-vits-zh-ll
### 模型文件
位于 app/src/main/assets/tts_model/sherpa-onnx-vits-zh-ll/ 目录:
- model.onnx - ONNX格式的声学模型
- tokens.txt - 音素/字符映射表
- lexicon.txt - 发音词典
- phone.fst - 音素转换规则
- date.fst - 日期归一化规则
- number.fst - 数字归一化规则
- new_heteronym.fst - 多音字处理规则
3. ## VAD模型信息
### 模型名称
Silero VAD (Voice Activity Detection)
### 模型文件
- 文件路径: assets/vad_model/silero_vad.onnx
- 格式ONNX格式
4. 模型部署对比
模型 类型 格式 RKNN加速 推理设备 配置
ASR SenseVoice .rknn ✅ 是 NPU RKNN Runtime
VAD Silero VAD .onnx ❌ 否 CPU provider="cpu"
TTS Sherpa-ONNX VITS .onnx ❌ 否 CPU ONNX Runtime
┌─────────────────┐ ┌─────────────────┐ ┌─────────────────┐
│ AudioProcessor │────▶│ VadManager │────▶│ ASR Queue │
│ (录音+增益) │ │ (语音活动检测) │ │ (Channel队列) │
└─────────────────┘ └─────────────────┘ └─────────────────┘
┌─────────────────────────┘
┌─────────────────┐
│ runAsrWorker │
│ (协程工作器) │
└─────────────────┘
┌─────────────────┐
│ SenseVoice │
│ (RKNN推理) │
└─────────────────┘
5. live2d, Haru的动作
由于没有官方文档基于Live2D模型的常见设计模式我建议以下映射
### 🎭 开心类情绪
- haru_g_m22 眯眼微笑
- haru_g_m21 跳动微笑
- haru_g_m18 手收背后微笑
- haru_g_m09 微微鞠躬
- haru_g_m08 深深鞠躬
### 😢 伤心类情绪
- haru_g_m25 - 扁嘴
- haru_g_m24 - 低头斜看地板,收手到背后
- haru_g_m05 扁嘴,张开双手
- haru_g_m16 双手捧腮,思考
### 😠 愤怒类情绪
- haru_g_m11 双手交叉,摇头,扁嘴
- haru_g_m04 双手交叉,点头
- haru_g_m03 双手交叉,点头
### 😌 平和类情绪
- haru_g_m15 双手交叉在胸前
- haru_g_m07 举起左手
- haru_g_m06 举起右手
- haru_g_m02 双手放到背后
- haru_g_m01 点头
### 😲 惊讶类情绪
- haru_g_m26 - 后退一步(适合:惊讶、吃惊)
- haru_g_m12 摆手,摇头
### 😕 困惑类情绪
- haru_g_m14 身体前倾,皱眉
- haru_g_m13 身体前倾,双手分开
### 害羞
- haru_g_m19 脸红微笑
### 担心
- haru_g_m20 手指点腮,思考,皱眉
### ❤️ 关心类情绪
- haru_g_m17 靠近侧脸
6. 其实可以抄一下讯飞的超脑平台的功能:
https://aiui-doc.xf-yun.com/project-2/doc-397/
7. 人脸检测使用的是RKNN zoo里的 retinaface模型转成了rknn格式并且使用了wider_face的数据集验证集进行了校准下载地址
https://www.modelscope.cn/datasets/shaoxuan/WIDER_FACE/files
8. 人脸识别模型是insightface的r18模型转成了rknn格式并且使用了 lfw 的数据集进行了校准,下载地址:
https://tianchi.aliyun.com/dataset/93864
9.