熟练掌握大模型微调、多模态语音合成相关技术,精通Qwen、CosyVoice等阿里开源大模型与TTS框架;熟练使用LoRA/PEFT轻量化微调方案,可针对TTS模型做音色、韵律、多音字发音定制优化。熟练Python、PyTorch、vLLM推理加速,能够完成流式Streaming-TTS改造、WebSocket实时音频流开发;熟悉FastAPI后端服务封装、Docker容器化部署,具备高并发推理优化经验,可通过混合精度、动态Batch优化提升服务吞吐。掌握文本归一化TN规则开发,能处理数字、量词、多音字等中文发音问题,熟悉客服场景TTS生产落地全流程,可独立完成模型调优与工程上线。
1. Qwen-TTS生产级落地优化项目:基于Qwen-TTS与CosyVoice完成生产化改造,针对原生模型发音不准、长文本韵律生硬问题,构建客服领域标注数据集,采用LoRA微调优化多音字、数字读音;自研文本归一化模块统一输入文本格式,优化长文本智能分句逻辑,改善断句与自然度。完成流式TTS推理改造,实现边生成边播放,依托vLLM优化推理速度,通过FastAPI+WebSocket搭建实时语音合成服务,Docker打包部署,完成压测优化,满足客服机器人低延迟、高并发生产需求。
2. 参与LLM数据抽取开发项目,基于大模型实现PDF财报结构化信息提取,完成数据清洗入库与前端可视化对接。
本项目基于Qwen-TTS、CosyVoice开源模型,面向客服机器人场景完成生产级落地优化。负责前端文本归一化模块开发,通过规则+小样本LLM方案解决多音字、数字、计量单位发音错误问题;采用LoRA轻量化微调方案,依托客服场景语料优化音色、停顿与韵律表现,优化长文本智能分句逻辑
本项目为海外物业SaaS定制财报智能解析管线,依托大模型完成PDF财务报告自动化结构化提取。使用Pdfplumber搭建PDF解析Pipeline,完成不规则财报文本、表格内容提取;通过自研LLM提示词工程,将非结构化财务文本转换为标准化字段数据,区分营收、成本、资产等类目。