猿急送>

上海其它兼职程序员

ID：284857

Adil

算法工程师

公司信息：
上海国音智能科技有限公司

工作经验：
1年

兼职日薪：
1200元/8小时

兼职时间：
下班后
周六
周日

所在区域：
上海
浦东

技术能力

信息与通信工程专业，研究生学历，从事包括但不限于语音识别，自然语言处理相关的工作(算法工程师)，base在上海。熟练使用python/shell/C编程语言以及kaldi、espnet、wenet、huggingface、wav2vec等语音识别平台。熟悉pytorch框架，熟悉DNN、RNN、Transformer、Conformer、BERT等神经网络模型。k-means，EM等分类算法。能够在各个语音识别平台上做数据预处理，特征提取，语言模型建立，声学模型建立以及模型解码和测试，优化等工作。能够运用transformer，bert等神经网络模型做实体识别，分类以及机器翻译相关的项目。能够做大数据处理，数据爬取，统计，分类等。

项目经验

小语种语音识别标点符号恢复：数据处理与词典生成: 用词汇量达70万的语言模型生成词典(word-num), 用bpe算法在6.5GB文本数据上训练bpe模型和词典(subword=1000, subword-num), 此外，以上两个词典中加入，MASK, PAD, SEP, CLS和四个常用的标点符号(period, comma, exclamation, question mark)。建立基于transformer的分类模型: 分别建立建模单元为word和subword的transformer分类模型，模型以transformer的encoder部分组成，12层网络，输入为词向量和位置向量，class为4(period, comma, exclamation, question mark)。两种模型中subword为建模单元的模型在测试数据集上的F1 score 相对比较好，但还是没到预期其中句号和逗号的recall相对稳定，其余两个类的效果较差。(多线程)训练基于BERT的预训练模型以及微调(多线程): 由于基于transformer的分类模型没学到语义信息，建立了基于BERT的预训练模型并在它的基础上进行finetune, 目前在优化当中。
小语种语音识别：建立测试集_指定方案: 为推进维语ASR，需建立验证模型性能的测试集，根据现有的数据资源以及我们所具备的条件，以场景，语音内容，环境，口音/方言等要素作为建立指标，给出了详细的方案。
数据预处理: 音频数据处理和文本数据清洗脚本，其功能包括音频数据的切割(vad)，合并，文本数据的转换，文本中数字的转
换，长句转短句，清理噪点等。数据生成: 完成调用谷歌翻译接口生成维语文本的脚本，生成7.5万条txt文件(总数据大小为460MB)。调用公司现有的tts系统分两批共生成了100小时左右的asr训练数据，并加到现有的训练数据里。建立训练数据集和测试集: 用文本处理脚本共建立了四个维语文本数据集，数据大小为6.5GB。用音频处理脚本共建立了3个测
试集，分别是带噪访谈，干净访谈，新闻以及其reference，时长为5小时。模型建立与优化: 用处理好的文本训练数据（四个文本数据集），前后建立了共15个符合业务需求的语言模型，平滑，插值等优化方式，最终生成了词汇量高达70万的4-gram语言模型，在对应的测试集上模型的困惑度(ppl)在190左右，未登录词(oov)降到最低(对于15个语言模型)，并在ASR解码时生成其对应的TLG。声学模型建立: 在已有的156小时维语ASR数据上分别加入第一批50个小时tts数据和第二批55小时tts数据，训练char，bpe为建模单元的声学模型(conformer)，用 ctc_greedy search，prefix beam search，attention rescore算法解码，端到端模型解码部分加入n-gram语言模型，对实验结果进行分析，加入编辑距离算法第二次打分，提升效果，将模型转成onnx形式输出给引擎。
基于多任务(MTL)学习的低资源语言语音识别系统：针对端到端语音识别模型(在低资源语言上)性能较低进行研究，先收集数据建设数据库，在kaldi, espnet上构建语音识别基线系统(GMM/DNN-HMM, CTC，Attention 以及混合CTC-Attention)，在测试数据上进行对比试验，从实验结果中可以看出来，端到端模型对实验数据的依赖比传统模型较为明显，端到端模型解码时引入语言模型能够得出较好的测试结果。
基于 DNN-HMM 和 RNN 的语音识别系统：熟悉与搭建kaldi语音识别平台，学习shell脚本并对数据集进行数据预处理，对音频进行特征提取，生成解码网络HCLG.fst, 建立基于GMM/DNN-HMM的语音识别系统，训练RNN语言模型并在解码时与N-gram语言模型切换，引入区分性训练(discriminative training)，进行对比实验.

案例展示

端到端语音识别系统

根据业务需求，输出符合业务需求的语音识别模型(通常包括声学模型和语言模型)。在这个项目中我负责整个过程，包括但不限于数据预处理，声学模型训练，语言模型训练，模型优化，测试验证模型性能，模型转换(pytorch转onnx)。
语音识别标点符号恢复

语音识别系统做完之后，紧接着对识别结果进行规范化，恢复标点符号，能够让识别的结果更加自然。整个项目由本人负责，前后训练了基于transformer的分类模型和基于BERT的恢复模型。整个项目包括：数据处理，模型建立，训练，解码，优化以及模型输出。