职位ID:159494

开源TTS(Qwen-TTS)生产级调优与落地

  • 合作方式:
  • 项目制 全国远程
  • 预估日薪:
  • 700
  • 预估总价:
  • 35000元
  • 预估工时:
  • 50天
  • 所在区域:
  • 全国远程

需求描述

一、项目背景
基于阿里开源TTS(如 Qwen-TTS或CosyVoice),当前语音合成效果尚可,但在实时性、并发能力及自然度方面无法满足生产环境要求,需要进行工程化优化。
二、任务目标
构建可用于客服系统、语音机器人等场景的高性能TTS服务,实现低延迟、高自然度、高稳定性和高并发能力。
三、工作内容
1. 模型优化与调优
基于 Qwen-TTS 进行模型调优(音色、韵律、停顿优化)
优化中文发音准确性(多音字、数字、单位等)
优化长文本合成质量(断句、语气自然度)
2. 实时合成能力建设
支持流式TTS(Streaming TTS)
支持边生成边播放(Chunk输出)
优化首包返回时间(TTFB)
3. 性能优化
推理加速(ONNX / TensorRT / GPU优化)
支持批量合成(Batch TTS)
模型加载与缓存优化
4. 并发与服务能力
提供标准API服务(HTTP / WebSocket)
支持高并发请求
支持多实例部署与负载均衡
5. 音频处理能力
支持多音色(可扩展)
支持语速、音调、音量控制
支持输出格式(PCM / WAV / MP3)
6. 稳定性与工程能力
异常文本处理(乱码、特殊符号等)
自动断句与文本规范化(Text Normalization)
日志与监控体系
四、核心技术指标
指标 要求
首字节返回时间(TTFB) ≤ 300ms
实时合成延迟 ≤ 1x(接近实时播放)
并发能力 ≥ 300路并发(单机)
语音自然度MOS评分 ≥ 4.2
音频卡顿率 ≤ 1%
长文本稳定性 ≥ 5分钟连续无异常
GPU利用率 ≥ 60%
五、交付内容
完整TTS服务源代码及安装包(支持流式)
模型调优说明文档
API接口文档
性能测试与压测报告
Docker部署方案
示例代码(调用Demo)
六、验收标准
按TTFB、并发等指标压测验证
主观听感测试(自然度)
实际业务文本测试通过
连续稳定运行72小时
七、补充要求
文本规范化(TN)必须完善:数字、日期、金额、英文混读
断句能力:避免长句导致语音不自然
缓存机制:常用文本支持缓存返回
音频拼接无缝:避免爆音、断裂
资源隔离:避免并发时音质下降
可观测性:必须提供QPS、延迟、错误率监控
八、加分项
有Qwen-TTS或CosyVoice经验
有语音机器人/外呼系统经验
支持情感语音(情绪表达)
支持私有化部署优化

投递职位 已有8人投递,发布人 点此登录 后查看。

信用行为

  • 发布项目
    2
  • 订单总数
    0
  • 退款单数
    0

完善简历

工程师完善技术能力和项目经验,更易接到订单

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信客服

需求方请加需求方端客服沟通需求,工程师请加工程师端客服浏览推送职位

需求方端客服
工程师端客服
联系需求方端客服