一款数字人智能对话系统,集成了大语言模型、自动语音识别、文本转语音和声音克隆等人工智能技术,通过Gradio平台提供交互式Web界面,支持用户上传图片与AI进行个性化对话。
核心功能模块包括:语音识别(ASR)支持Whisper、FunASR和OmniSenseVoice;文本转语音(TTS)集成Edge TTS和PaddleTTS;声音克隆支持GPT-SoVITS、XTTS和CosyVoice,其中GPT-SoVITS仅需1分钟语音数据即可克隆声音;数字人生成(THG)包含SadTalker、Wav2Lip、Wav2Lipv2、ER-NeRF和MuseTalk;大语言模型(LLM)集成了Linly-AI、Qwen、Gemini-Pro、ChatGPT、ChatGLM和GPT4Free等多种模型。
系统具备多模型集成能力,可实现多轮上下文连贯对话,支持实时语音识别和视频字幕功能,能生成逼真数字人头像提升沉浸体验。
支持通过脚本一键下载模型,可通过conda环境配置运行。最新发布的版本采用WebRTC实现低延迟音视频传输,支持全双工对话和打断功能,适合构建AI助手、数字人接待员和交互式导览等实时交互场景。