猿急送>

杭州其它兼职程序员

ID：401996

Qiu

爬虫工程师

公司信息：
每日互动股份有限公司

工作经验：
1年

兼职日薪：
500元/8小时

兼职时间：
下班后
周六
周日

所在区域：
杭州
余杭

技术能力

数据采集经验，可高效完成各类公开数据爬取需求，覆盖电商（商品 / 评价 / 销量）、资讯（行业动态 / 政策文件）、社交（用户画像 / 话题趋势）、企业信息（工商 / 招聘 / 招投标）等多领域。
技术栈扎实：精通 Python 爬虫生态，熟练运用 Scrapy 分布式框架、Selenium 自动化、Playwright 渲染，能破解 IP 封锁（动态代理池）、滑块验证码（图像识别）、JS 加密（AST 反混淆）等 90% 以上反爬机制。
交付标准：
数据准确率≥99%，支持 Excel/CSV/JSON/ 数据库直连等格式
提供爬取脚本（可复用）+ 操作说明，后期可独立运行
敏感数据脱敏处理，全程加密传输，签订数据安全协议
过往案例：
✓ 帮律所采集 3000 + 企业涉诉信息，生成可视化分析报告
✓ 给自媒体团队抓取热点话题数据，辅助内容选题
全程 1v1 对接需求，24 小时内出方案，紧急需求 48 小时内交付。只爬取公开合法数据，合规有保障。

项目经验

新媒体公司抓取 500 + 垂直领域公众号历史推文，核心技术难点集中在：
微信生态反爬限制：需突破登录态校验（通过逆向分析 wxmp 接口，模拟合法 Cookie 生成机制）
文章内容加密：部分账号采用字体反爬（开发字体映射解析工具，将乱码字符精准还原）
分页加载限制：单账号日爬取量被限制在 200 条内（搭建 10 + 账号轮换池，配合动态 UA 伪装实现增量采集）
最终实现 98% 以上图文内容完整提取，包括阅读量 / 在看数等隐藏数据，支持按发布时间 / 关键词筛选导出
电商数据爬取
为跨境团队爬取亚马逊欧洲站 3 万 + 竞品数据时，解决三大技术卡点：
动态价格反爬：商品价格通过 JS 动态生成（用 Playwright 渲染完整 DOM，定位价格渲染节点）
IP 封锁机制：单 IP 请求 10 次即被封禁（搭建全球节点代理池，结合请求频率智能调度）
评论分页限制：单商品仅显示前 10 页评论（逆向发现 API 分页参数规律，构造深层请求链接）
交付包含实时价格监控脚本，支持每小时自动更新，数据误差控制在 0.5% 以内
政策数据爬取
帮智库机构采集 200 + 政府网站政策文件时，攻克特殊技术场景：
异构页面结构：不同部门网站 HTML 布局差异大（开发通用解析模板，通过语义识别定位正文）
PDF 格式转换：30% 文件以扫描件形式存在（集成 OCR 文字识别，配合版式分析还原段落结构）
增量更新需求：需实时捕获政策更新（设计基于 ETag 的增量检测机制，每日增量爬取效率提升 80%）
最终交付结构化数据库，包含政策原文 / 发布机构 / 实施时间等 12 个维度信息
技术栈扎实：精通 Python 爬虫生态，熟练运用 Scrapy 分布式框架、Selenium 自动化、Playwright 渲染，能破解 IP 封锁（动态代理池）、滑块验证码（图像识别）、JS 加密（AST 反混淆）等 90% 以上反爬机制。

案例展示

中经网序列信息爬取

中经网作为权威经济数据平台，其官方 SqlSever 服务接入年费达 30 万元，且对非付费用户设置多重严苛技术壁垒。我曾为金融机构完成替代方案开发，核心技术突破与能力体现如下：一、核心技术难点与解决方案接口鉴权限制突破中经网公开查询接口需通过动态签名验证（每
微信公众号爬取

微信公众号作为封闭生态平台，其文章数据抓取存在多重严苛限制。我曾为新媒体机构完成 500 + 垂直领域账号的历史推文采集（含阅读量、在看数等核心数据），核心技术突破如下：一、核心技术难题与解决方案登录态实时校验突破微信公众号平台采用动态登录态校验（Cookie