猿急送>

其他前端兼职程序员

ID：402910

饭

数据抓取技术员

公司信息：
猪八戒网

工作经验：
1年

兼职日薪：
600元/8小时

兼职时间：
可工作日远程

所在区域：
其他
全区

技术能力

我具备扎实的数据爬取技术栈，可独立完成从需求分析到数据清洗的全流程。熟练使用 Python 3.11，掌握 requests、aiohttp 进行高并发异步抓取，能够针对 Cloudflare、Incapsula 等常见反爬机制编写基于 Playwright 或 Puppeteer 的浏览器伪装脚本；熟悉 Scrapy、Pyppeteer 及分布式框架 Scrapy-Redis，可在多台云主机上横向扩展，实现日均千万级 URL 的稳定采集。精通 XPath、CSS Selector、正则及 BeautifulSoup、lxml 解析器，能快速适配 HTML5、SPA 站点；对 GraphQL、RESTful API 有逆向经验，可通过 mitmproxy 抓包、JS Hook 还原加密参数，解决 token、sig 动态签名问题。熟悉常见验证码对抗策略：图像类（ddddocr、OpenCV 模板匹配）、滑块类（selenium-wire + 轨迹模拟）、点选类（YOLOv8 目标检测）。数据落地方案灵活，支持 CSV、MySQL、MongoDB、Elasticsearch 及 OSS 直传；增量更新采用 Redis BloomFilter 去重，结合 Kafka 流式队列保证幂等。具备法律合规意识，遵守 robots 协议与目标站点 ToS，可配置限速、User-Agent 轮换、代理池（阿布云/芝麻代理）及降级策略，确保业务连续性与数据合规。

项目经验

使用 Python3.10 + Scrapy + Playwright 组合框架，为某中型跨境电商公司完成 7×24 小时竞品价格监控系统。项目分三步落地：
1. 反爬绕过：针对 Amazon、Shopee、Lazada 等 6 个站点，利用 Playwright 伪装 Chrome 117 指纹，随机化窗口尺寸、WebGL 与 Canvas 噪声；同时接入 Scrapy-ProxyPool 轮换 300+ 住宅 IP，成功率从 42 % 提升到 91 %。
2. 数据链路：Scrapy 爬取后立即推送 Kafka，经 Spark Streaming 清洗后写入 ClickHouse；每日增量 120 万条 SKU 价格、库存、促销标签，平均延迟 < 3 分钟。
3. 可视化报警：Grafana + Alertmanager 实现价格异动分级报警（跌幅>5% 橙色、>10% 红色），并自动生成可下载的 CSV 报警
最终交付 1 套 Docker-Compose 一键部署脚本、1 份接口文档及 3 个可复用 Spider 模板，客户 30 天内完成 4 次促销调价，GMV 提升 17 %。