1. ## ๐ŸŽฏ ๅฝ“ๅ‰ไฝฟ็”จ็š„ASRๆจกๅž‹ ### ๆจกๅž‹ๅ็งฐ๏ผšSenseVoice (RKNN็‰ˆๆœฌ) ### ๆจกๅž‹ๆžถๆž„๏ผš - ็ผ–็ ๅ™จ : sense-voice-encoder.rknn - RKNNๆ ผๅผ็š„็ฅž็ป็ฝ‘็ปœๆจกๅž‹ - ๅตŒๅ…ฅๅฑ‚ : embedding.npy - ่ฏๅตŒๅ…ฅ็Ÿฉ้˜ต - ๅˆ†่ฏๅ™จ : chn_jpn_yue_eng_ko_spectok.bpe.model - BPEๅˆ†่ฏๆจกๅž‹ ### ๆจกๅž‹็‰น็‚น๏ผš 1. ๅคš่ฏญ่จ€ๆ”ฏๆŒ - ๆ”ฏๆŒไธญๆ–‡ใ€ๆ—ฅๆ–‡ใ€็ฒค่ฏญใ€่‹ฑๆ–‡ใ€้Ÿฉๆ–‡ 2. RKNNๅŠ ้€Ÿ - ้’ˆๅฏนRK3588็ญ‰Rockchip่Šฏ็‰‡ไผ˜ๅŒ– 3. ITNๆ”ฏๆŒ - ๅฏ็”จไบ†้€†ๆ–‡ๆœฌๅฝ’ไธ€ๅŒ–๏ผˆInverse Text Normalization๏ผ‰๏ผŒๆ้ซ˜ๆ•ฐๅญ—/ๆ—ฅๆœŸ่ฏ†ๅˆซๅ‡†็กฎๆ€ง 2. ## TTSๆจกๅž‹ไฟกๆฏ ### ๆจกๅž‹ๅ็งฐ Sherpa-ONNX VITS - ไธญๆ–‡็‰ˆๆœฌ๏ผˆsherpa-onnx-vits-zh-ll๏ผ‰ ### ๆจกๅž‹ๆ–‡ไปถ ไฝไบŽ app/src/main/assets/tts_model/sherpa-onnx-vits-zh-ll/ ็›ฎๅฝ•๏ผš - model.onnx - ONNXๆ ผๅผ็š„ๅฃฐๅญฆๆจกๅž‹ - tokens.txt - ้Ÿณ็ด /ๅญ—็ฌฆๆ˜ ๅฐ„่กจ - lexicon.txt - ๅ‘้Ÿณ่ฏๅ…ธ - phone.fst - ้Ÿณ็ด ่ฝฌๆข่ง„ๅˆ™ - date.fst - ๆ—ฅๆœŸๅฝ’ไธ€ๅŒ–่ง„ๅˆ™ - number.fst - ๆ•ฐๅญ—ๅฝ’ไธ€ๅŒ–่ง„ๅˆ™ - new_heteronym.fst - ๅคš้Ÿณๅญ—ๅค„็†่ง„ๅˆ™ 3. ## VADๆจกๅž‹ไฟกๆฏ ### ๆจกๅž‹ๅ็งฐ Silero VAD (Voice Activity Detection) ### ๆจกๅž‹ๆ–‡ไปถ - ๆ–‡ไปถ่ทฏๅพ„๏ผš assets/vad_model/silero_vad.onnx - ๆ ผๅผ๏ผšONNXๆ ผๅผ 4. ๆจกๅž‹้ƒจ็ฝฒๅฏนๆฏ” ๆจกๅž‹ ็ฑปๅž‹ ๆ ผๅผ RKNNๅŠ ้€Ÿ ๆŽจ็†่ฎพๅค‡ ้…็ฝฎ ASR SenseVoice .rknn โœ… ๆ˜ฏ NPU RKNN Runtime VAD Silero VAD .onnx โŒ ๅฆ CPU provider="cpu" TTS Sherpa-ONNX VITS .onnx โŒ ๅฆ CPU ONNX Runtime โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ” โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ” โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ” โ”‚ AudioProcessor โ”‚โ”€โ”€โ”€โ”€โ–ถโ”‚ VadManager โ”‚โ”€โ”€โ”€โ”€โ–ถโ”‚ ASR Queue โ”‚ โ”‚ (ๅฝ•้Ÿณ+ๅขž็›Š) โ”‚ โ”‚ (่ฏญ้ŸณๆดปๅŠจๆฃ€ๆต‹) โ”‚ โ”‚ (Channel้˜Ÿๅˆ—) โ”‚ โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜ โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜ โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜ โ”‚ โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜ โ–ผ โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ” โ”‚ runAsrWorker โ”‚ โ”‚ (ๅ็จ‹ๅทฅไฝœๅ™จ) โ”‚ โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜ โ”‚ โ–ผ โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ” โ”‚ SenseVoice โ”‚ โ”‚ (RKNNๆŽจ็†) โ”‚ โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜