- **全链路 AI 语音交互打通**:接入阿里云 **`paraformer-realtime-v2`** 实现低延迟实时语音识别(ASR),核心对话大脑对接 **`qwen-plus`** 模型进行意图理解与文本生成,并集成微软 **`edge_tts`** 进行高自然度语音合成,独立构建了端到端的 AI 对话闭环。
- **流式 Pipeline 与延迟优化**:针对 `qwen-plus` 大模型的流式输出,实现基于标点与长度的**双重断句算法**,结合 `edge_tts` 采用“边生成、边合成、边推送”的并发流水线模式,极大降低了系统首字延迟(TTFT),提升了语音交互的实时性。
- **交互状态机设计**:基于 WebSocket 协议自定义指令,构建精准的录音与响应状态机,支持 PCM 音频流的高效切片传输与动态拼接。
- **跨协议音频工程与稳定性**:实现从 TTS 输出音频到 16kHz/16bit 单声道 PCM 的实时重采样,确保生成内容在嵌入式硬件终端的低延迟直接解码;建立非录音状态数据过滤与异常追踪体系,支撑高频长连接场景。