本人具备大数据全栈开发与NLP算法工程化落地的复合技术能力,拥有NLP算法开发实战经验,可独立承接从底层集群搭建、数据全链路处理到算法模型落地的全流程项目,能快速适配企业各类数据处理与AI算法落地需求,保障项目高效交付与稳定运行。
技术层面,精通Linux系统运维,熟练使用Docker完成服务容器化部署、环境隔离与集群编排,可快速搭建稳定可复用的开发与生产环境,保障服务的可移植性与运维效率。深度掌握Hadoop大数据生态全核心组件,精通HDFS分布式存储、MapReduce分布式计算框架与YARN资源调度体系,可完成分布式集群的部署、调优与故障排查;熟练使用Hive进行离线数据仓库建模、分层设计与海量结构化数据的ETL开发,基于PySpark实现TB级数据的批处理分析、特征工程与数据挖掘,具备完善的离线数据处理全链路开发能力。
同时,熟练掌握分布式系统核心组件,可基于ZooKeeper搭建分布式协调服务,实现集群高可用配置;精通Kafka高吞吐消息队列,可完成实时数据管道的搭建与流量削峰填谷;通过Flume实现多源异构日志数据的高效采集、过滤与同步,结合HBase列式数据库完成海量数据的低延迟实时读写与存储,可搭建完整的实时数据处理链路。数据库层面,熟练使用MySQL进行关系型数据库的表结构设计、索引优化、复杂查询编写与性能调优,可适配业务场景完成合理的存储方案设计。
核心优势方面,精通Python编程语言,具备扎实的代码工程化能力,可基于Python完成数据处理、自动化脚本开发与NLP算法模型的实现、调优与部署;过往NLP算法开发经验,让我能够将自然语言处理技术与大数据能力深度融合,完成从海量文本数据的采集清洗、存储管理、特征提取,到算法模型训练、工程化部署、线上效果迭代的全闭环开发,可承接文本分类、情感分析、命名实体识别等各类NLP场景的项目落地,同时可满足企业大数据平台搭建、离线数仓建设、实时数据中台开发、海量数据治理等多元化的技术需求。
"智社"QA机器人
● 对"智社"平台社区政务案例的非结构化数据依次进行数据清洗、分词、词性标注、实体识别、依存句法分析、语义角色标注,进行三元组关系抽取
● 使用Neo4j图数据库对抽取的三元组实体和关系建立知识图谱
● 使用AC自动机算法对分词结果构建语料词典,同时构建类别词典
● 将用户问句与语料词典、类别词典进行模式匹配,确定其问句中心词类别
● 构建问句形式列表,使用关键词匹配的方式对用户问句进行意图识别
● 通过中心词类别与意图识别结果来封装Cql语句,完善答句结构以反馈用户结果