IoT 展厅数字人语音集控执行端

猿急送>上海前端兼职程序员>李文宏>

案例列表

基本信息

案例ID：240399

技术顾问：李文宏 - 14年经验 - 自由职业者

联系沟通

微信扫码，建群沟通

项目名称：IoT 展厅数字人语音集控执行端

所属行业：人工智能 - 智能家居

->查看更多案例

案例介绍

面向展厅与设备集控场景的 Flutter 客户端，集成 Duix-Mobile 数字人渲染与口型驱动；语音识别采用 sherpa-onnx 流式 Online Paraformer（ONNX）在端侧完成实时转写，将识别文本映射为可配置指令并驱动页面与设备执行；播报侧以设计端预生成音频为主，与数字人播放管线打通。本人在该方向负责从方案选型、插件封装到会话状态机与识别–指令–口播协同落地的全流程或关键模块。

主要职责与成果：

完成麦克风 PCM → 流式 ASR（partial / final）→ 业务语义匹配 → Executor 执行的端到端集成，理清 Duix 官方「ASR/TTS 需自集成」边界并形成可交付架构。
基于 sherpa-onnx 封装独立插件层，负责模型加载、会话生命周期、16 kHz 单声道喂流；针对生产体验调优端点检测、尾静音填充、blankPenalty 等参数，平衡句尾完整度、切段稳定性与交互延迟。
实现多级指令匹配（规范化精确匹配、无调拼音编辑距离、子串/覆盖、全文编辑距离等瀑布策略），区分仅唤醒 / 全量交互等会话态，提升真实口令下的召回与可控误触发。
录音链路启用降噪与回声消除（AEC）；在 ASR 输出侧配合异常/幻听串过滤；口播与识别并行场景下，从工程上处理误打断与漏打断的权衡（会话门闩、补偿匹配时机等）。
发布端在内容生产链路采用通义千问 Qwen3-TTS-Flash 合成播报素材，与执行端预生成音频 + 数字人播放解耦，保证合成质量与端上播放稳定性。
技术关键词： Flutter / Dart · Duix-Mobile · sherpa-onnx · ONNX 流式 Paraformer · PCM 音频管线 · 端侧实时识别 · 指令匹配与状态机