我主导开发了一套高性能、可交互的智能数字人系统。该项目深度融合了计算机图形学(CG)、自然语言处理(NLP)与语音技术(TTS/ASR),旨在创造高度逼真且具备智能对话能力的虚拟形象。
系统核心技术栈与功能包括:
1. 形象生成与驱动: 采用UE5/Unity高性能引擎进行实时渲染,通过PyTorch/TensorFlow搭建深度学习模型,实现基于语音口型同步(Viseme)与面部动作编码(FACS)的超写实表情与肢体驱动,确保表情自然、动作流畅。
2. 智能交互内核: 整合大型语言模型(如GPT系列或类似本地化模型)作为对话大脑,处理用户输入的语义理解与上下文管理。同时集成语音识别(ASR)与语音合成(TTS) 技术,支持多语种、多音色的实时双向语音交互。
3. 应用与集成: 构建了高并发、低延迟的微服务架构后端,提供标准API接口,成功将数字人应用于虚拟客服、AI直播、产品讲解等多类交互场景,显著提升了用户体验与服务效率。
该项目展现了我在整合前沿AI技术与实时图形渲染,并交付端到端复杂系统的综合技术能力。