1. 核心优势: 拥有 10 年 Python 全栈爬虫开发经验,专注于高并发分布式采集与复杂反爬攻防。具备从数据采集、清洗、存储到可视化的全流程独立交付能力。代码风格严谨,注重脚本的长期稳定性与维护性,拒绝“一次性”代码。
2. 逆向与对抗能力: 精通 JS 逆向工程,熟练掌握 Chrome 开发者工具,能够处理 Webpack 打包、参数加密、指纹验证等复杂场景;熟悉 APP 逆向,熟练使用 Frida、Xposed 等 Hook 框架进行协议分析与脱壳;具备丰富的验证码对抗经验(滑块、点选、计算等),熟练搭建 IP 代理池与指纹浏览器环境,有效规避风控检测。
3. 技术栈与框架:
语言与框架: 精通 Python,熟练使用 Scrapy、Scrapy-Redis 分布式架构;熟悉 Selenium、Playwright 以及新兴的 DrissionPage 自动化工具,可根据业务场景灵活选择“协议流”或“渲染流”。
数据存储: 精通 MySQL、MongoDB、Redis 等数据库的调优与入库去重。
部署运维: 熟悉 Docker 容器化部署,熟悉 Linux 环境与定时任务调度(Crawlab/Airflow),确保采集任务 7x24 小时稳定运行。
4. 业务经验: 长期承接电商(价格监控/竞品分析)、社交媒体(舆情/评论)、金融(股票/行情)及各类公开政企数据的采集需求。
项目名称:多源金融市场实时行情聚合与分析平台
项目描述: 为量化交易团队开发的金融数据中台,负责从国内外多个证券交易所及三方财经网站获取实时行情数据、财报公告及新闻资讯。项目要求极高的数据实时性与准确性,且需应对不同数据源的格式差异。
我的职责与技术方案:
实时流处理: 摒弃传统的 HTTP 轮询,采用 WebSocket 协议直连交易所数据源,实现毫秒级行情推送。使用 Python 的 asyncio 异步框架处理高并发推送数据,确保在行情剧烈波动时不丢包、不延迟。
ETL 数据清洗: 针对股票、期货等不同标的数据,编写复杂的 Pandas 清洗脚本,处理缺失值、异常值,并将不同来源的数据统一标准化为时间序列格式,存入 ClickHouse/TimeScaleDB 时序数据库。
公告监控: 利用 Python 编写定向爬虫,7x24 小时监控指定上市公司的公告发布,结合关键词提取技术,第一时间将重大利好/利空消息推送至用户端(如企业微信/钉钉)。
稳定性保障: 设计了断线重连与主备切换机制,当主数据源异常时,系统可毫秒级切换至备用数据源,确保服务高可用。
项目成果: 实现了全市场 5000+ 支标的秒级监控,数据清洗准确率 99.9%,为交易策略提供了坚实的数据底座。
| 角色 | 职位 |
| 负责人 | 高级python开发工程师 |
| 队员 | 产品经理 |
| 队员 | UI设计师 |
| 队员 | iOS工程师 |
| 队员 | 安卓工程师 |
| 队员 | 前端工程师 |
| 队员 | 后端工程师 |
为某跨境电商大卖(B2C)开发的竞品情报分析系统,旨在解决人工监控竞争对手价格滞后、数据不准的痛点。系统需覆盖 Amazon、Shopee 及独立站,对百万级 SKU 进行高频监控。 【核心功能】 实时价格/库存监控: 7x24 小时自动追踪竞品价格变动与库存水位,一
一款面向专业量化交易团队的高性能多因子回测系统,支持A股全市场历史数据的策略回测与绩效分析。系统旨在帮助交易员快速验证交易逻辑,挖掘超额收益(Alpha)。 【核心功能】 多因子策略引擎: 支持自定义因子表达式,内置动量、反转、波动率等上百种常见因子库,可快速组合生成
1. 指标开发方法论:时间 + 维度 + 指标 我采用了**维度建模(Dimensional Modeling)**的思想,将每一个指标拆解为三个要素: 时间维度 (Time Series): 统一以 UTC/CST 时间戳为基准,支持按分钟、小时、天、周、月进行多级粒度