猿急送>

厦门后端兼职程序员

ID：284218

CYL 身份已认证

算法策略工程师

公司信息：
高德-阿里巴巴

工作经验：
7年

兼职日薪：
1000元/8小时

兼职时间：
周六
周日
可工作日远程
可工作日驻场（自由职业原因）

所在区域：
厦门
全区

技术能力

(0) 厦门大学（985）毕业。
(1) 熟悉Linux操作系统，熟悉python，C/C++，了解java，scala、shell等编程语言。
(2) 熟悉pytorch，tensorflow等深度学习框架框架与wenet、kaldi、rasa、HyperLPR等优秀开源项目。
(3) 熟悉flask、redis、mysql、docker、jenkins等框架与工具。
(4) 熟悉spark、flink、hbase、kafka、hadoop等大数据框架。
(5) 能够独立负责公司深度学习项目的研究与落地，且效果不低于市场上的同类产品。
(6) 能够根据具体的业务场景，搭建一套系统、完善的服务框架，并保障服务框架的高可用高并发。
(7) 工程经验丰富，具有很好的分析问题解决问题能力；工作负责踏实，有较强学习能力和自我驱动力。

项目经验

一、项目名称:语音识别服务平台
项目介绍:催收和客服场景有大量电话语音识别需求，阿里云服务调用成本高，并且存在数据安全与专有名词识别效果差的问题，所以自研语音识别服务。项目采用微服务架构，主要包含前处理服务、语音识别服务和加标点服务。
主要职责:
(1) 调研kaldi和wenet框架，最终选择wenet端到端的框架作为语音识别的服务。
(2) 训练语音识别模型，达到上线的效果；实现模型微调，缩短模型的训练耗时。
(3) 优化C++版本的语音识别服务代码，提供语音识别服务。
(4) 对标阿里语音识别服务的参数和异步调用流程，使用grpc开发前处理服务，支持音频数据的并发、流式传输。输出接口文档。
(5) 进行单元测试、压力测试、保障性能和服务的稳定性；并解决开发过程中遇到的功能、性能问题。
(6) 输出服务日志到ELK平台；并用prometheus、Grafana实时监控服务的QPS、可用性、P99指标。
(7) 使用docker部署服务，Jenkins发布上线，nginx进行负载均衡，搭建高并发高可用服务。
主要业绩:
(1) 经产品测算，使用自研语音识别服务替换阿里云的服务后，每年可节省48万的服务费用。
(2) 目前线上使用的语音识别模型的字错率为5.32%，而阿里云的语音识别服务的字错率为7.29%。
(3) 优化工作：
-- 发现wenet C++版服务代码中的bug: grpc返回的解析结果只有一个。解决bug并提交patch。
---- 相关链接: https://github.com/wenet-e2e/wenet/commit/f54d0ef14901037ad39790bca2df668c1c4d7ab0
-- 模型训练代码中，不支持<unk>标签(unknow)，修改代码解决该问题。
-- 解决负载均衡异常的问题：经排查是阿里的SLB对grpc支持不好导致，改用Nginx后解决该问题。
(4) 语音识别服务平台如期上线，目前服务已经稳定运行一年，未出现bug。

二、项目名称:智能催收机器人平台
项目介绍:催收机器人初始由第三方厂商定制开发。因业务发展扩展成本较高，所以自研支持多并发、多轮对话的智能催收机器人平台以替代第三方厂商。
主要职责:
(1) 使用rasa框架实现多轮对话机器人，支持话术配置、意图识别、多轮对话并发处理等功能。
(2) 实现配置管理模块，使用RocketMQ、Redis等实现多进程间配置数据的实时同步和定时更新。
(3) 沟通与完成对话数据从rasa服务、到Kafka、到Flink、到Hbase的实时、持久化存储方案。
(4) 进行单元测试、压力测试、保障性能和服务的稳定性；并解决开发过程中遇到的功能、性能问题。
(5) 沟通与实现高并发、高可用的集群部署方案、使用docker部署服务，Jenkins发布上线。
主要业绩:
(1) 经产品测算，全线替代第三方厂商可减少238.75万一次性采购投入及采购后每年86.96万的维保费用。
(2) 优化工作：
- 改写rasa框架的KafkaEventBroker模块，使生产数据到kafka集群的耗时由原来的100ms降为3ms以内，满足高并发的需求。
- 解决flink消费逆序数据导致的入库错误。
(3) 智能催收机器人平台如期上线，目前服务已经稳定运行一年多，未出现bug。

三、项目名称:分布式机器学习平台
项目介绍:大数据场景下，为解决模型训练耗时、实验结果难复现、难追踪、模型难部署等问题，基于spark开发大数据机器学习平台。
主要职责:
(1) 完成spark分布式环境调研与模型调研、性能摸底测试。
(2) 使用spark实现分布式训练、离线预测功能；实现可配置化，并输出说明文档。
(3) 使用mlflow框架进行web可视化，实现模型统一管理、实验追踪、指标监控等。
(4) 实现灰度预测；并通过psi指标进行监控，进行异常告警的功能。
主要业绩:
(1) 开发了集分布式训练、离线预测、在线服务、模型管理、指标监控预警为一体的大数据机器学习平台。
(2) 大幅缩短模型训练和预测耗时，该平台相比于之前的模型训练，效率提升150%。
(3) 模型、特征工程可配置化，降低业务模型训练门槛；模型统一管理，可在任意一台机器上进行训练和服务部署。

四、项目名称:车牌识别平台
项目介绍:为解决停车场闸机的车牌识别效果差，模型更新周期长，升级成本高的问题，决定自研车牌识别平台。
主要职责:
(1) 研究与实现车牌识别算法，最终采用Faceboxes模型用于车牌检测，Resnet模型用于车牌精确定位，C

案例展示

语音识别服务平台

担任角色:负责人与核心开发（共3人）项目介绍:催收和客服场景有大量电话语音识别需求，阿里云服务调用成本高，并且存在数据安全与专有名词识别效果差的问题，所以自研语音识别服务。项目采用微服务架构，主要包含前处理服务、语音识别服务和加标点服务。主要职责: (1) 调研kal
智能催收机器人平台

担任角色:核心开发（共3人）项目介绍:催收机器人初始由第三方厂商定制开发。因业务发展扩展成本较高，所以自研支持多并发、多轮对话的智能催收机器人平台以替代第三方厂商。主要职责: (1) 使用rasa框架实现多轮对话机器人，支持话术配置、意图识别、多轮对话并发处理等功能。