ID:420584

Partridge.

后端程序员

  • 公司信息:
  • 拼多多
  • 工作经验:
  • 1年
  • 兼职日薪:
  • 600元/8小时
  • 兼职时间:
  • 可工作日驻场(自由职业原因)
  • 所在区域:
  • 其他
  • 全区

技术能力

熟练使用 Python 开展全流程数据开发与爬虫项目落地,精通 requests、Selenium、DrissionPage 三类爬虫框架,可根据反爬场景灵活选用接口请求、静态页面解析、无头浏览器仿真爬取方案,能处理验证码、动态 JS 渲染、Cookie 校验、IP 封禁等各类网站反爬限制,完成海量网页数据抓取、清洗、结构化存储。熟练运用 MySQL 进行数据表设计、索引优化、多表联查、事务管理与数据批量导入导出,依托 SQL 语句完成数据筛选统计与库表运维。掌握 Java 基础开发语法,可编写简易业务接口、对接数据库实现基础业务逻辑。熟悉 Hadoop 大数据生态体系,了解 HDFS 分布式文件存储、MapReduce 运算逻辑,能够配合完成海量爬取数据的分布式存储、分片预处理工作。可独立承接爬虫定制、数据采集、数据入库、简单大数据预处理类顾问工作,结合多技术栈适配不同行业数据获取需求,排查采集报错、优化爬取效率与数据库存取性能。

项目经验

1.多平台全品类数据爬虫采集项目
依托 Python 技术栈,结合 requests 做接口极速抓取、Selenium 与 DrissionPage 处理 JS 动态渲染页面,针对电商、资讯类站点搭建爬虫体系。解决站点动态加密参数、滑块验证码、访问频次限制等反爬难题,采集后的原始数据经清洗规整后存入 MySQL,合理设计分表与索引优化查询速度。单日稳定抓取数十万条结构化数据,优化爬虫休眠策略与代理调度逻辑,爬取失败率从 18% 降至 3% 以内。部分海量历史数据接入 Hadoop,利用 HDFS 实现分布式存储,完成大批量数据分片预处理。
2.小型后端配套数据服务开发项目
基于 Java 编写简易数据同步接口,对接 MySQL 数据库,实现爬虫数据定时入库、增量更新、数据校验功能,打通前端数据查询底层支撑。对接 Hadoop 集群完成冷热数据拆分,高频使用数据留存 MySQL,过期海量归档数据迁移分布式存储,有效缩减数据库存储压力,提升整体系统查询响应速度,满足企业日常数据调取、统计分析的业务需求。
项目落地过程中负责需求拆解、方案选型、代码开发与后期运维调优,可根据客户业务场景灵活迭代采集规则与存储架构。

案例展示

  • 中风患者数据分析与预测

    中风患者数据分析与预测

    本作品为中风患者数据分析与预测系统,面向医疗智能辅助诊断场景,融合临床结构化数据与脑部 CT 影像,实现中风风险评估、影像分类及可视化展示一体化解决方案。我全程负责需求分析、数据处理、模型构建、系统开发与部署全流程工作。 项目使用 Python 作为核心开发语言,对 5000

  • 空气质量实时监测与预测系统

    空气质量实时监测与预测系统

    本作品为基于 Kafka 和 Spark 的空气质量实时监测与预测系统,我独立完成从需求分析、架构设计到全流程开发与测试工作。系统采用大数据实时处理架构,通过 Requests 多线程采集全国 342 个城市空气质量数据,经 Kafka 消息队列实现高吞吐、低延迟的数据流传输,利

查看案例列表(含更多 0 个案例)

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服