猿急送>

其他其它兼职程序员

ID：420584

Partridge.

后端程序员

公司信息：
拼多多

工作经验：
1年

兼职日薪：
600元/8小时

兼职时间：
可工作日驻场（自由职业原因）

所在区域：
其他
全区

技术能力

熟练使用 Python 开展全流程数据开发与爬虫项目落地，精通 requests、Selenium、DrissionPage 三类爬虫框架，可根据反爬场景灵活选用接口请求、静态页面解析、无头浏览器仿真爬取方案，能处理验证码、动态 JS 渲染、Cookie 校验、IP 封禁等各类网站反爬限制，完成海量网页数据抓取、清洗、结构化存储。熟练运用 MySQL 进行数据表设计、索引优化、多表联查、事务管理与数据批量导入导出，依托 SQL 语句完成数据筛选统计与库表运维。掌握 Java 基础开发语法，可编写简易业务接口、对接数据库实现基础业务逻辑。熟悉 Hadoop 大数据生态体系，了解 HDFS 分布式文件存储、MapReduce 运算逻辑，能够配合完成海量爬取数据的分布式存储、分片预处理工作。可独立承接爬虫定制、数据采集、数据入库、简单大数据预处理类顾问工作，结合多技术栈适配不同行业数据获取需求，排查采集报错、优化爬取效率与数据库存取性能。

项目经验

1.多平台全品类数据爬虫采集项目
依托 Python 技术栈，结合 requests 做接口极速抓取、Selenium 与 DrissionPage 处理 JS 动态渲染页面，针对电商、资讯类站点搭建爬虫体系。解决站点动态加密参数、滑块验证码、访问频次限制等反爬难题，采集后的原始数据经清洗规整后存入 MySQL，合理设计分表与索引优化查询速度。单日稳定抓取数十万条结构化数据，优化爬虫休眠策略与代理调度逻辑，爬取失败率从 18% 降至 3% 以内。部分海量历史数据接入 Hadoop，利用 HDFS 实现分布式存储，完成大批量数据分片预处理。
2.小型后端配套数据服务开发项目
基于 Java 编写简易数据同步接口，对接 MySQL 数据库，实现爬虫数据定时入库、增量更新、数据校验功能，打通前端数据查询底层支撑。对接 Hadoop 集群完成冷热数据拆分，高频使用数据留存 MySQL，过期海量归档数据迁移分布式存储，有效缩减数据库存储压力，提升整体系统查询响应速度，满足企业日常数据调取、统计分析的业务需求。
项目落地过程中负责需求拆解、方案选型、代码开发与后期运维调优，可根据客户业务场景灵活迭代采集规则与存储架构。

案例展示

中风患者数据分析与预测

本作品为中风患者数据分析与预测系统，面向医疗智能辅助诊断场景，融合临床结构化数据与脑部 CT 影像，实现中风风险评估、影像分类及可视化展示一体化解决方案。我全程负责需求分析、数据处理、模型构建、系统开发与部署全流程工作。项目使用 Python 作为核心开发语言，对 5000
空气质量实时监测与预测系统

本作品为基于 Kafka 和 Spark 的空气质量实时监测与预测系统，我独立完成从需求分析、架构设计到全流程开发与测试工作。系统采用大数据实时处理架构，通过 Requests 多线程采集全国 342 个城市空气质量数据，经 Kafka 消息队列实现高吞吐、低延迟的数据流传输，利