ai state machine init

2026-03-05 18:50:48 +08:00
parent ef2bada800
commit d5767156b9
10 changed files with 855 additions and 217 deletions
--- a/app/note/design_doc
+++ b/app/note/design_doc
@@ -113,7 +113,85 @@ https://www.modelscope.cn/datasets/shaoxuan/WIDER_FACE/files
 8. 人脸识别模型是insightface的r18模型，转成了rknn格式，并且使用了 lfw 的数据集进行了校准，下载地址：
 https://tianchi.aliyun.com/dataset/93864

-9. 
+9. 本地LLM，用的是 rkllm 模型，由于内存限制，只能用较小的模型，如 Qwen3-0.6B-rk3588-w8a8.rkllm。
+
+10. 数字人交互设计说明书（优化版）
+核心原则
+* 尊重用户：给用户足够的反应时间，不抢话，不催促。
+* 主动但不打扰：用户沉默时适度引导，但不强行交互；数字人拥有独立的内心活动，即便无人交互也保持“生命感”。
+* 个性化：记住每个用户的偏好、名字、对话历史，并据此调整问候和回应。
+* 动作同步：Live2D人物的表情与动作与当前状态、情绪、内心活动相匹配。
+* 持续内心活动：数字人即使在没有用户时也会进行“回忆”或“思考”，并通过文字展现，用户可随时打断并询问想法。
+
+状态定义
+[空闲状态]：无人，数字人无内心活动（省电模式）。
+[回忆状态]：无人，数字人正在根据记忆产生内心想法，通过表情表现。
+[问候状态]：检测到用户，主动打招呼。
+[等待回复状态]：问候后或对话间隙，等待用户回复。
+[对话状态]：正在与用户交流，根据情绪调整动作。
+[主动引导状态]：用户沉默但仍在画面中，数字人主动开启新话题。
+[告别状态]：用户离开画面，数字人告别。
+[空闲状态]
+   动作 ： haru_g_idle （待机动作）
+    ↓
+检测到人脸 → 等待1秒（让人脸稳定）
+    ↓
+[问候状态]
+   动作 ：
+   - 认识用户： haru_g_m22  （高兴动作）
+   - 不认识： haru_g_m01（中性动作）
+   AI问候（根据是否认识个性化）
+   启动20秒计时器
+    ↓
+[等待回复状态]
+   动作 ： haru_g_m17 
+    ↓
+    ├─ 如果用户在20秒内回复 → 进入[对话状态]
+    │      动作 ：根据对话情绪动态调整
+    │      - 开心： haru_g_m22 / haru_g_m21 / haru_g_m18 / haru_g_m09 / haru_g_m08
+    │      - 悲伤： haru_g_m25 / haru_g_m24 / haru_g_m05 / haru_g_m16
+    │      - 惊讶： haru_g_m26 / haru_g_m12
+    │      - 愤怒： haru_g_m04 / haru_g_m11 / haru_g_m04
+    │      - 平静： haru_g_m15 / haru_g_m07 / haru_g_m06 / haru_g_m02 / haru_g_m01
+    │      AI根据内容回应，持续直到用户说“再见”
+    │      ↓
+    │      （用户离开）→ 进入[告别状态]
+    │
+    └─ 如果20秒内无回复
+            ↓
+        检查用户是否还在画面
+            ↓
+        ├─ 如果还在 → [主动引导状态]
+        │      动作 ： haru_g_m15 / haru_g_m07 （中性动作）
+        │      AI开启轻松话题（如“我出一道数学题考考你吧？1+6等于多少？”）
+        │      等待10秒
+        │          ↓
+        │      ├─ 回复 → 进入[对话状态]
+        │      └─ 没回复 → 换话题，如，我们上完厕所应该干什么呀？最多重复3次
+        │            动作 ： haru_g_m22 / haru_g_m18
+        │            （重复尝试）→ 再次等待10秒
+        │            （3次后仍无回复）→ 回到[等待回复状态]
+        │
+        └─ 如果已离开 → [告别状态]
+               动作 ： haru_g_idle （告别后待机）
+               ↓
+               3秒后 → 回到[空闲状态]
+
+[空闲状态] （长时间无人）
+    ↓
+   如果持续30秒无人 → 进入[回忆状态]
+       动作 ： haru_g_m15
+       回顾之前的聊天记录，生成想法，不发声，把想法显示在屏幕上
+       ↓
+       如果检测到人脸 → 立即中断回忆，进入[问候状态]


+[回忆状态] 被用户询问“你在想什么？”
+       ↓
+    AI说出最近的想法（如“我刚才在想，上次你说你喜欢蓝色...”）
+       ↓
+    进入[问候状态]或直接进入[对话状态]（根据用户后续反应）
+
+[告别状态] （用户离开后）
+   动作 ： 简短告别，用语音，→ 等待3秒 → 回到[空闲状态]