项目背景
客户需要全平台商品价格监控,原有单机爬虫频繁被风控封禁,每日爬取量不足 2w,数据去重、清洗全靠人工 Excel 处理。
技术栈
Python3.10、Scrapy、Redis 去重池、Proxy 代理池、MySQL、Docker
落地内容
搭建分布式爬虫集群,代理 IP 动态轮换 + 请求指纹反爬;开发自动数据清洗脚本,异常商品自动标记入库;定时任务全量增量抓取。
项目成果
单日抓取量 2w→35w,爬虫存活率 28% 提升至 94%;省去每日 3 小时人工整理,人力成本下降 90%。
配图:爬虫调度后台、数据统计报表