基本信息

案例ID:242348

技术顾问:羊驼驼. - 2年经验 - 中电金信

联系沟通

微信扫码,建群沟通

项目名称:数字人只能对话

所属行业:人工智能 - 其他

->查看更多案例

案例介绍

一款数字人智能对话系统,集成了大语言模型、自动语音识别、文本转语音和声音克隆等人工智能技术,通过Gradio平台提供交互式Web界面,支持用户上传图片与AI进行个性化对话。

核心功能模块包括:语音识别(ASR)支持Whisper、FunASR和OmniSenseVoice;文本转语音(TTS)集成Edge TTS和PaddleTTS;声音克隆支持GPT-SoVITS、XTTS和CosyVoice,其中GPT-SoVITS仅需1分钟语音数据即可克隆声音;数字人生成(THG)包含SadTalker、Wav2Lip、Wav2Lipv2、ER-NeRF和MuseTalk;大语言模型(LLM)集成了Linly-AI、Qwen、Gemini-Pro、ChatGPT、ChatGLM和GPT4Free等多种模型。

系统具备多模型集成能力,可实现多轮上下文连贯对话,支持实时语音识别和视频字幕功能,能生成逼真数字人头像提升沉浸体验。

支持通过脚本一键下载模型,可通过conda环境配置运行。最新发布的版本采用WebRTC实现低延迟音视频传输,支持全双工对话和打断功能,适合构建AI助手、数字人接待员和交互式导览等实时交互场景。

相似案例推荐

其他人才的相似案例推荐

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服