项目描述:为短视频/数字人平台开发高保真 TTS 服务,通过少量录音(Few-shot)复刻特定 IP 音色及情感,替代人工配音。
技术实施:
小样本克隆:自研音频降噪与分离流水线,实现仅需 5 分钟有效干声即可高保真提取并复刻目标音色特征。
声学与前端:优化 VITS 韵律预测模块以还原情感起伏;深度重构中文文本前端(TN),彻底解决中英混读、特殊符号及多音字发音痛点。
工程部署:设计智能断句算法解决长文合成时的显存溢出与拼接生硬问题;完成 ONNX 模型推理加速与高并发 API 封装。
项目成果:合成音频 MOS 评分达 4.1 以上(媲美真人)。成功上线数十个 IP 音色,使客户单条视频配音成本锐减 80% 以上。