IoT 展厅数字人语音集控执行端

基本信息

案例ID:240399

技术顾问:李文宏 - 14年经验 - 自由职业者

联系沟通

微信扫码,建群沟通

项目名称:IoT 展厅数字人语音集控执行端

所属行业:人工智能 - 智能家居

->查看更多案例

案例介绍

面向展厅与设备集控场景的 Flutter 客户端,集成 Duix-Mobile 数字人渲染与口型驱动;语音识别采用 sherpa-onnx 流式 Online Paraformer(ONNX) 在端侧完成实时转写,将识别文本映射为可配置指令并驱动页面与设备执行;播报侧以设计端预生成音频为主,与数字人播放管线打通。本人在该方向负责从方案选型、插件封装到会话状态机与识别–指令–口播协同落地的全流程或关键模块。

主要职责与成果:

完成 麦克风 PCM → 流式 ASR(partial / final)→ 业务语义匹配 → Executor 执行 的端到端集成,理清 Duix 官方「ASR/TTS 需自集成」边界并形成可交付架构。
基于 sherpa-onnx 封装独立插件层,负责 模型加载、会话生命周期、16 kHz 单声道喂流;针对生产体验调优 端点检测、尾静音填充、blankPenalty 等参数,平衡句尾完整度、切段稳定性与交互延迟。
实现 多级指令匹配(规范化精确匹配、无调拼音编辑距离、子串/覆盖、全文编辑距离等瀑布策略),区分 仅唤醒 / 全量交互 等会话态,提升真实口令下的召回与可控误触发。
录音链路启用 降噪与回声消除(AEC);在 ASR 输出侧配合 异常/幻听串过滤;口播与识别并行场景下,从工程上处理 误打断与漏打断 的权衡(会话门闩、补偿匹配时机等)。
发布端在内容生产链路采用 通义千问 Qwen3-TTS-Flash 合成播报素材,与执行端 预生成音频 + 数字人播放 解耦,保证合成质量与端上播放稳定性。
技术关键词: Flutter / Dart · Duix-Mobile · sherpa-onnx · ONNX 流式 Paraformer · PCM 音频管线 · 端侧实时识别 · 指令匹配与状态机

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服