1 精通Python/C++语言,熟练linux系统及常见操作指令,熟悉常见的数据结构和算法,熟练掌握机常用的器学习和深度学习算法,熟练使用Tensorflow/Pytorch框架,并能自主复现论文代码;
2 拥有丰富的企业工作经历,参与神经网络语音合成系统工业化落地项目,人力标注数据减少70%,声库制作周期由原来的8-9个月缩短为1-3个月,极大的提高了语音合成效率;主导3个语音合成系统构建和优化项目,模型推理速度提升35%;
项目描述:构建数字人使用的语音合成系统,提供情感化的合成交互体验
主要工作:
(1) 搭建 TTS_Engine,完成中/英文前端模块构建,及各子模块的自动化测试程序构建,提供至少一个中/英文的男/女说话人模型,支 持单语言说话人说英/中文的能力,支持流式合成;
(2) 系统优化;设计多级分句策略,与流式合成搭配,使首包响应时间控制在 200ms 内,优化多音字和韵律模型,结合语言学上发音 规则,使发音准确率由 33.51%提升到 71.35%,增加分词模型和多音字固定搭配表,使发音准确率提升至 89%;
(3) 负责情感 TTS 研发;包括情感标签预测模型和情感 TTS 模型的研发,提升合成语音拟人度;
(4) 支持跨语言合成能力,单语言发音人具备混合语言合成能力;
成果: 数字人具有多语言发声能力和发声具有情感表现力