120 lines
4.4 KiB
Plaintext
120 lines
4.4 KiB
Plaintext
1. ## 🎯 当前使用的ASR模型
|
||
### 模型名称:SenseVoice (RKNN版本)
|
||
### 模型架构:
|
||
- 编码器 : sense-voice-encoder.rknn - RKNN格式的神经网络模型
|
||
- 嵌入层 : embedding.npy - 词嵌入矩阵
|
||
- 分词器 : chn_jpn_yue_eng_ko_spectok.bpe.model - BPE分词模型
|
||
### 模型特点:
|
||
1. 多语言支持 - 支持中文、日文、粤语、英文、韩文
|
||
2. RKNN加速 - 针对RK3588等Rockchip芯片优化
|
||
3. ITN支持 - 启用了逆文本归一化(Inverse Text Normalization),提高数字/日期识别准确性
|
||
|
||
2. ## TTS模型信息
|
||
### 模型名称
|
||
Sherpa-ONNX VITS - 中文版本(sherpa-onnx-vits-zh-ll)
|
||
|
||
### 模型文件
|
||
位于 app/src/main/assets/tts_model/sherpa-onnx-vits-zh-ll/ 目录:
|
||
|
||
- model.onnx - ONNX格式的声学模型
|
||
- tokens.txt - 音素/字符映射表
|
||
- lexicon.txt - 发音词典
|
||
- phone.fst - 音素转换规则
|
||
- date.fst - 日期归一化规则
|
||
- number.fst - 数字归一化规则
|
||
- new_heteronym.fst - 多音字处理规则
|
||
|
||
3. ## VAD模型信息
|
||
### 模型名称
|
||
Silero VAD (Voice Activity Detection)
|
||
|
||
### 模型文件
|
||
- 文件路径: assets/vad_model/silero_vad.onnx
|
||
- 格式:ONNX格式
|
||
|
||
4. 模型部署对比
|
||
模型 类型 格式 RKNN加速 推理设备 配置
|
||
ASR SenseVoice .rknn ✅ 是 NPU RKNN Runtime
|
||
VAD Silero VAD .onnx ❌ 否 CPU provider="cpu"
|
||
TTS Sherpa-ONNX VITS .onnx ❌ 否 CPU ONNX Runtime
|
||
|
||
┌─────────────────┐ ┌─────────────────┐ ┌─────────────────┐
|
||
│ AudioProcessor │────▶│ VadManager │────▶│ ASR Queue │
|
||
│ (录音+增益) │ │ (语音活动检测) │ │ (Channel队列) │
|
||
└─────────────────┘ └─────────────────┘ └─────────────────┘
|
||
│
|
||
┌─────────────────────────┘
|
||
▼
|
||
┌─────────────────┐
|
||
│ runAsrWorker │
|
||
│ (协程工作器) │
|
||
└─────────────────┘
|
||
│
|
||
▼
|
||
┌─────────────────┐
|
||
│ SenseVoice │
|
||
│ (RKNN推理) │
|
||
└─────────────────┘
|
||
|
||
5. live2d, Haru的动作
|
||
由于没有官方文档,基于Live2D模型的常见设计模式,我建议以下映射:
|
||
|
||
### 🎭 开心类情绪
|
||
- haru_g_m22 眯眼微笑
|
||
- haru_g_m21 跳动微笑
|
||
- haru_g_m18 手收背后微笑
|
||
- haru_g_m09 微微鞠躬
|
||
- haru_g_m08 深深鞠躬
|
||
|
||
|
||
### 😢 伤心类情绪
|
||
- haru_g_m25 - 扁嘴
|
||
- haru_g_m24 - 低头斜看地板,收手到背后
|
||
- haru_g_m05 扁嘴,张开双手
|
||
- haru_g_m16 双手捧腮,思考
|
||
|
||
### 😠 愤怒类情绪
|
||
- haru_g_m11 双手交叉,摇头,扁嘴
|
||
- haru_g_m04 双手交叉,点头
|
||
- haru_g_m03 双手交叉,点头
|
||
|
||
### 😌 平和类情绪
|
||
- haru_g_m15 双手交叉在胸前
|
||
- haru_g_m07 举起左手
|
||
- haru_g_m06 举起右手
|
||
- haru_g_m02 双手放到背后
|
||
- haru_g_m01 点头
|
||
|
||
|
||
### 😲 惊讶类情绪
|
||
- haru_g_m26 - 后退一步(适合:惊讶、吃惊)
|
||
- haru_g_m12 摆手,摇头
|
||
|
||
### 😕 困惑类情绪
|
||
- haru_g_m14 身体前倾,皱眉
|
||
- haru_g_m13 身体前倾,双手分开
|
||
|
||
### 害羞
|
||
- haru_g_m19 脸红微笑
|
||
|
||
|
||
### 担心
|
||
- haru_g_m20 手指点腮,思考,皱眉
|
||
|
||
### ❤️ 关心类情绪
|
||
- haru_g_m17 靠近侧脸
|
||
|
||
6. 其实可以抄一下讯飞的超脑平台的功能:
|
||
https://aiui-doc.xf-yun.com/project-2/doc-397/
|
||
|
||
7. 人脸检测使用的是RKNN zoo里的 retinaface模型,转成了rknn格式,并且使用了wider_face的数据集(验证集)进行了校准,下载地址:
|
||
https://www.modelscope.cn/datasets/shaoxuan/WIDER_FACE/files
|
||
|
||
8. 人脸识别模型是insightface的r18模型,转成了rknn格式,并且使用了 lfw 的数据集进行了校准,下载地址:
|
||
https://tianchi.aliyun.com/dataset/93864
|
||
|
||
9.
|
||
|
||
|
||
|