猿急送>

北京其它兼职程序员

ID：237996

ASR/NLP 身份已认证

NLP、全栈开发

公司信息：
百度

工作经验：
3年

兼职日薪：
500元/8小时

兼职时间：
下班后
周六
周日

所在区域：
北京
全区

技术能力

熟悉语音识别整体流程，包括传统HMM-GMM语音识别和端到端语音识别，熟悉LSTM、CNN等网络模型框架及 attention注意力机制，能使用tensorflow及pytorch搭建模型；
熟悉主流编程语言，如java/python/C++；
了解Docker应用容器引擎，能进行多主机集群管理；
熟练使用linux操作系统，有阅读linux内核页面调度源码经历；
熟悉开源云操作系统openstack，包括OpenStack的概览、操作界面管理、认证管理、镜像管理、计算管理、存储管理、网络管理、编排管理、故障处理。

项目经验

文本纠错
负责对语音识别的输出文本进行优化校正。主要内容包括预处理数据，生成True和False训练标签；使用BiLSTM-CRF进行网络搭建，从命名实体识别的思路出发进行检错分析，找出错文本中错误文字的索引；根据错误索引，使用混淆集和语言模型进行文字校正。项目中主要使用java和python语言。主要解决难点在于检错以及混淆集的选取，最终的纠错策略应用在语音识别上能有效提高文本准确率。

语音识别
负责研发医疗领域语音识别系统。主要职责在于语料分析、语音识别模型训练、模型部署。①语料分析采用的方法是数据的余弦相似度，在词覆盖率上进行分析，期望在少量的训练集中取到最佳的识别效果；②语音识别模型部分，提取音频数据的 fbank特征，使用tensorflow搭建CNN+CTC的端到端网络模型进行语音模型的训练；③在服务器上部署语音识别模型，优化客户端和服务器之间的访问请求，达到实时返回识别文本的效果。

案例展示

文本校正

负责对语音识别的输出文本进行优化校正。主要内容包括预处理数据，生成True和False训练标签；使用BiLSTM-CRF进行网络搭建，从命名实体识别的思路出发进行检错分析，找出错文本中错误文字的索引；根据错误索引，使用混淆集和语言模型进行文字校正。项目中主要使用java和py
语音识别

负责研发医疗领域语音识别系统。主要职责在于语料分析、语音识别模型训练、模型部署。①语料分析采用的方法是数据的余弦相似度，在词覆盖率上进行分析，期望在少量的训练集中取到最佳的识别效果；②语音识别模型部分，提取音频数据的 fbank特征，使用tensorflow搭建CNN+CTC的