digital_person/app/note/design_doc

1. ## 🎯 当前使用的ASR模型
    ### 模型名称：SenseVoice (RKNN版本)
    ### 模型架构：
    - 编码器 : sense-voice-encoder.rknn - RKNN格式的神经网络模型
    - 嵌入层 : embedding.npy - 词嵌入矩阵
    - 分词器 : chn_jpn_yue_eng_ko_spectok.bpe.model - BPE分词模型
    ### 模型特点：
    1. 多语言支持 - 支持中文、日文、粤语、英文、韩文
    2. RKNN加速 - 针对RK3588等Rockchip芯片优化
    3. ITN支持 - 启用了逆文本归一化（Inverse Text Normalization），提高数字/日期识别准确性

2. ## TTS模型信息
    ### 模型名称
    Sherpa-ONNX VITS - 中文版本（sherpa-onnx-vits-zh-ll）

    ### 模型文件
    位于 app/src/main/assets/tts_model/sherpa-onnx-vits-zh-ll/ 目录：

    - model.onnx - ONNX格式的声学模型
    - tokens.txt - 音素/字符映射表
    - lexicon.txt - 发音词典
    - phone.fst - 音素转换规则
    - date.fst - 日期归一化规则
    - number.fst - 数字归一化规则
    - new_heteronym.fst - 多音字处理规则

3. ## VAD模型信息
    ### 模型名称
    Silero VAD (Voice Activity Detection)

    ### 模型文件
    - 文件路径： assets/vad_model/silero_vad.onnx
    - 格式：ONNX格式

4. 模型部署对比
模型 类型 格式 RKNN加速 推理设备 配置
ASR SenseVoice .rknn ✅ 是 NPU RKNN Runtime
VAD Silero VAD .onnx ❌ 否 CPU provider="cpu"
TTS Sherpa-ONNX VITS .onnx ❌ 否 CPU ONNX Runtime

┌─────────────────┐     ┌─────────────────┐     ┌─────────────────┐
│  AudioProcessor │────▶│   VadManager    │────▶│   ASR Queue     │
│  (录音+增益)     │     │  (语音活动检测)  │     │ (Channel队列)   │
└─────────────────┘     └─────────────────┘     └─────────────────┘
                                                        │
                              ┌─────────────────────────┘
                              ▼
                        ┌─────────────────┐
                        │  runAsrWorker   │
                        │ (协程工作器)     │
                        └─────────────────┘
                              │
                              ▼
                        ┌─────────────────┐
                        │  SenseVoice     │
                        │  (RKNN推理)     │
                        └─────────────────┘