ID:402910

数据抓取技术员

  • 公司信息:
  • 猪八戒网
  • 工作经验:
  • 1年
  • 兼职日薪:
  • 600元/8小时
  • 兼职时间:
  • 可工作日远程
  • 所在区域:
  • 其他
  • 全区

技术能力

我具备扎实的数据爬取技术栈,可独立完成从需求分析到数据清洗的全流程。熟练使用 Python 3.11,掌握 requests、aiohttp 进行高并发异步抓取,能够针对 Cloudflare、Incapsula 等常见反爬机制编写基于 Playwright 或 Puppeteer 的浏览器伪装脚本;熟悉 Scrapy、Pyppeteer 及分布式框架 Scrapy-Redis,可在多台云主机上横向扩展,实现日均千万级 URL 的稳定采集。精通 XPath、CSS Selector、正则及 BeautifulSoup、lxml 解析器,能快速适配 HTML5、SPA 站点;对 GraphQL、RESTful API 有逆向经验,可通过 mitmproxy 抓包、JS Hook 还原加密参数,解决 token、sig 动态签名问题。熟悉常见验证码对抗策略:图像类(ddddocr、OpenCV 模板匹配)、滑块类(selenium-wire + 轨迹模拟)、点选类(YOLOv8 目标检测)。数据落地方案灵活,支持 CSV、MySQL、MongoDB、Elasticsearch 及 OSS 直传;增量更新采用 Redis BloomFilter 去重,结合 Kafka 流式队列保证幂等。具备法律合规意识,遵守 robots 协议与目标站点 ToS,可配置限速、User-Agent 轮换、代理池(阿布云/芝麻代理)及降级策略,确保业务连续性与数据合规。

项目经验

使用 Python3.10 + Scrapy + Playwright 组合框架,为某中型跨境电商公司完成 7×24 小时竞品价格监控系统。项目分三步落地:
1. 反爬绕过:针对 Amazon、Shopee、Lazada 等 6 个站点,利用 Playwright 伪装 Chrome 117 指纹,随机化窗口尺寸、WebGL 与 Canvas 噪声;同时接入 Scrapy-ProxyPool 轮换 300+ 住宅 IP,成功率从 42 % 提升到 91 %。
2. 数据链路:Scrapy 爬取后立即推送 Kafka,经 Spark Streaming 清洗后写入 ClickHouse;每日增量 120 万条 SKU 价格、库存、促销标签,平均延迟 < 3 分钟。
3. 可视化报警:Grafana + Alertmanager 实现价格异动分级报警(跌幅>5% 橙色、>10% 红色),并自动生成可下载的 CSV 报警
最终交付 1 套 Docker-Compose 一键部署脚本、1 份接口文档及 3 个可复用 Spider 模板,客户 30 天内完成 4 次促销调价,GMV 提升 17 %。

案例展示

  • 数据爬取

    数据爬取

    我在这几张照片里负责的是服务方,我做的是python爬虫数据抓取,还有一张图片我在给别人做咨询,新手不会是很正常的。

  • 数据爬取

    数据爬取

    我在两幅图片中做的是服务方,所提供的服务是python数据爬取,在其中一张中我在给新手提供方帮助,新手不会是很正常的

查看案例列表(含更多 0 个案例)

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服