电话回铃中,包含 :空号、关机、无法接通、正常振铃、或者嘟嘟声 等不同描述
使用ASR语音转写过于占用资源,需要一个高性能的音频分类模型,建立有效的特征抽取方法,推理电话振铃中的回铃类型。
线上真实推理的场景:
线上的500ms、1s、5s 音频传递给模型(实际使用中为流式,累积音频时长去持续判断),模型反馈 可能的分类。
有可能的场景是1个5秒的音频,前2秒时振铃,后3秒是关机报错:“您拨打的” 但并未说完,
需要输出 : 0-2s:概率最大的分类和概率值、 2-5s:关机概率最大的分类和概率值
可提供的训练集:
不同类别音频量各3000个,原始回铃音文件,前面的振铃音需要自行通过VAD或其他方式预处理掉。
交付结果:
1)分类模型和推理使用的方法
2)中间训练和预处理的过程说明(特征、模型、框架,优先使用Python相关技术栈)
3)性能越高越好,至少单机QPS能做到500,单核推理的返回速度控制在 100ms 以内