职位ID:158490

电话场景中的回铃音(彩铃音)训练分类模型

  • 合作方式:
  • 项目制 全国远程
  • 预估日薪:
  • 800
  • 预估总价:
  • 8000元
  • 预估工时:
  • 10天
  • 所在区域:
  • 全国远程

需求描述

电话回铃中,包含 :空号、关机、无法接通、正常振铃、或者嘟嘟声 等不同描述

使用ASR语音转写过于占用资源,需要一个高性能的音频分类模型,建立有效的特征抽取方法,推理电话振铃中的回铃类型。

线上真实推理的场景:
线上的500ms、1s、5s 音频传递给模型(实际使用中为流式,累积音频时长去持续判断),模型反馈 可能的分类。
有可能的场景是1个5秒的音频,前2秒时振铃,后3秒是关机报错:“您拨打的” 但并未说完,
需要输出 : 0-2s:概率最大的分类和概率值、 2-5s:关机概率最大的分类和概率值

可提供的训练集:
不同类别音频量各3000个,原始回铃音文件,前面的振铃音需要自行通过VAD或其他方式预处理掉。

交付结果:
1)分类模型和推理使用的方法
2)中间训练和预处理的过程说明(特征、模型、框架,优先使用Python相关技术栈)
3)性能越高越好,至少单机QPS能做到500,单核推理的返回速度控制在 100ms 以内

信用行为

  • 发布项目
    2
  • 订单总数
    0
  • 退款单数
    0

完善简历

工程师完善技术能力和项目经验,更易接到订单

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信客服

需求方请加需求方端客服沟通需求,工程师请加工程师端客服浏览推送职位

需求方端客服
工程师端客服
联系需求方端客服