后端开发: Python、Flask/FastAPI、API 开发
数据处理: 爬虫采集、PDF 解析、文本抽取、正则处理
存储检索: MySQL、Redis、Elasticsearch
工 程 化: Docker、Linux、Shell、Git、CI/CD
大数据/AI: CDH、Spark、模型 API 集成、提示词优化
企业级多数据源连接与同步平台
2025年08月 - 2026年03月
负责多数据源连接能力建设,统一接入飞书、SalesSmartly、企业微信、网页搜索、新闻聚合等数据源。
搭建 Celery 异步调度体系,支持 file/redis/rabbitmq 三种模式,兼容单机与多机部署。
实现 Redis 分布式锁 + 消息去重机制,降低重复消费与任务冲突。
完成数据模型与迁移治理,优化任务链路稳定性与可维护性。
推进容器化部署和日志/重试机制建设,提升交付效率与故障恢复能力。
投行智能核查系统
2022年01月 - 2024年12月
面向招股说明书、债券募集说明书、ABS 说明书及反馈回复等文档,构建核查与抽取能力。
开发 PDF 解析与关键字段抽取模块,实现非结构化文档结构化处理。
关键字段抽取准确率达到 92%。
独立开发短信验证登录与核查任务模块,优化文档一致性比对流程。
深交所数据采集系统
2023年05月 - 2023年10月
负责多平台公告采集与解析,覆盖深交所、上交所、北交所、巨潮网、全国股转系统。
设计并落地反反爬策略,保障采集链路稳定运行。
构建多平台爬虫架构,累计采集数据 10W+,反爬绕过率提升至 95%。
完成 MySQL 到 Elasticsearch 数据同步,优化模糊检索效果。
吉祥大数据平台
2023年10月 - 2025年08月
技术栈: CDH 6.3、Spark、Hive、Elasticsearch
主导 CDH 6.3 平台搭建与集群部署。
设计标准化数据清洗流程,解决多航司异构数据口径不一致问题。
基于 Spark 优化计算任务链路,支撑日均 5000万级 航班数据处理。
参与大模型能力接入与提示词优化,提升测量参数生成准确性。
负责多数据源连接能力建设,统一接入飞书、SalesSmartly、企业微信、网页搜索、新闻聚合等数据源。 搭建 Celery 异步调度体系,支持 file/redis/rabbitmq 三种模式,兼容单机与多机部署。 实现 Redis 分布式锁 + 消息去重机制,降低重复消费
面向招股说明书、债券募集说明书、ABS 说明书及反馈回复等文档,构建核查与抽取能力。 开发 PDF 解析与关键字段抽取模块,实现非结构化文档结构化处理。 关键字段抽取准确率达到 92%。 独立开发短信验证登录与核查任务模块,优化文档一致性比对流程。