ID:418204

爱看书的毛豆

Python爬虫

  • 公司信息:
  • 途家
  • 工作经验:
  • 3年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 可工作日远程
  • 可工作日驻场(离职原因)
  • 可工作日驻场(自由职业原因)
  • 所在区域:
  • 合肥
  • 全区

技术能力

1.熟练掌握 Python 爬虫开发全流程,精通 Requests、Scrapy、Selenium、Playwright 等主流采集框架,能高效应对静态 / 动态页面、JS 加密、反爬策略(UA 池、代理池、验证码识别、Cookie 池、请求频率控制)。

2.熟悉数据清洗与结构化处理,熟练使用 Pandas、NumPy 进行数据去重、格式转换、异常值处理;掌握 MySQL、MongoDB、Redis 等数据库的设计与读写优化,可实现百万级数据的稳定存储与高效查询。

3.了解常见反爬机制原理与规避方案,具备分布式爬虫、增量式采集、断点续爬、多线程 / 多进程任务调度的开发与优化能力;熟悉 HTTP/HTTPS 协议、抓包分析工具(Fiddler/Charles),能独立完成复杂场景下的采集方案设计、问题排查与性能调优,保障数据采集的稳定性、完整性与合规性。

项目经验

行业资讯平台大规模数据采集与分析项目
为行业研究场景设计并开发分布式爬虫系统,针对资讯平台的动态渲染、IP 封禁、请求签名加密等多重反爬机制,通过 JS 逆向破解签名参数、搭建高可用代理池、动态调整请求频率等方式,实现全平台资讯内容、作者信息、互动数据的批量采集。
项目实现日均采集量超 200 万条数据,通过 Redis 实现任务调度与去重,Scrapy 分布式架构将采集效率提升 60%;同时对采集数据进行清洗、分类与结构化处理,存入 MySQL 数据库并构建基础索引,支撑后续的行业趋势分析与内容聚合业务。项目全程严格遵循数据合规要求,未出现违规采集与数据泄露问题,为业务方提供了稳定、可靠的数据源支撑。

案例展示

  • 电商商品数据批量采集与结构化处理系统

    电商商品数据批量采集与结构化处理系统

    本项目为电商行业客户开发的商品数据采集系统,针对主流电商平台的动态渲染、IP 限制、请求签名加密等反爬场景,采用 Python+Scrapy+Redis 搭建分布式采集架构。通过代理池轮询、UA 池动态切换、请求频率控制与 JS 逆向破解,实现了商品标题、价格、库存、规格、用户评

  • 行业资讯增量式采集与结构化分析工具

    行业资讯增量式采集与结构化分析工具

    本项目为行业研究场景开发的资讯数据采集工具,针对资讯平台的动态加载、Cookie 验证、访问频率限制等反爬机制,采用 Python+Playwright+Redis 实现增量式采集与断点续爬。通过抓包分析请求逻辑、逆向破解参数加密、搭建代理池与请求队列,实现了全平台资讯内容、作者

查看案例列表(含更多 0 个案例)

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服