ID:401996

Qiu

爬虫工程师

  • 公司信息:
  • 每日互动股份有限公司
  • 工作经验:
  • 1年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 所在区域:
  • 杭州
  • 余杭

技术能力

数据采集经验,可高效完成各类公开数据爬取需求,覆盖电商(商品 / 评价 / 销量)、资讯(行业动态 / 政策文件)、社交(用户画像 / 话题趋势)、企业信息(工商 / 招聘 / 招投标)等多领域。​
技术栈扎实:精通 Python 爬虫生态,熟练运用 Scrapy 分布式框架、Selenium 自动化、Playwright 渲染,能破解 IP 封锁(动态代理池)、滑块验证码(图像识别)、JS 加密(AST 反混淆)等 90% 以上反爬机制。​
交付标准:​
数据准确率≥99%,支持 Excel/CSV/JSON/ 数据库直连等格式​
提供爬取脚本(可复用)+ 操作说明,后期可独立运行​
敏感数据脱敏处理,全程加密传输,签订数据安全协议​
过往案例:​
✓ 帮律所采集 3000 + 企业涉诉信息,生成可视化分析报告​
✓ 给自媒体团队抓取热点话题数据,辅助内容选题​
全程 1v1 对接需求,24 小时内出方案,紧急需求 48 小时内交付。只爬取公开合法数据,合规有保障。

项目经验

新媒体公司抓取 500 + 垂直领域公众号历史推文,核心技术难点集中在:​
微信生态反爬限制:需突破登录态校验(通过逆向分析 wxmp 接口,模拟合法 Cookie 生成机制)​
文章内容加密:部分账号采用字体反爬(开发字体映射解析工具,将乱码字符精准还原)​
分页加载限制:单账号日爬取量被限制在 200 条内(搭建 10 + 账号轮换池,配合动态 UA 伪装实现增量采集)​
最终实现 98% 以上图文内容完整提取,包括阅读量 / 在看数等隐藏数据,支持按发布时间 / 关键词筛选导出​
电商数据爬取​
为跨境团队爬取亚马逊欧洲站 3 万 + 竞品数据时,解决三大技术卡点:​
动态价格反爬:商品价格通过 JS 动态生成(用 Playwright 渲染完整 DOM,定位价格渲染节点)​
IP 封锁机制:单 IP 请求 10 次即被封禁(搭建全球节点代理池,结合请求频率智能调度)​
评论分页限制:单商品仅显示前 10 页评论(逆向发现 API 分页参数规律,构造深层请求链接)​
交付包含实时价格监控脚本,支持每小时自动更新,数据误差控制在 0.5% 以内​
政策数据爬取​
帮智库机构采集 200 + 政府网站政策文件时,攻克特殊技术场景:​
异构页面结构:不同部门网站 HTML 布局差异大(开发通用解析模板,通过语义识别定位正文)​
PDF 格式转换:30% 文件以扫描件形式存在(集成 OCR 文字识别,配合版式分析还原段落结构)​
增量更新需求:需实时捕获政策更新(设计基于 ETag 的增量检测机制,每日增量爬取效率提升 80%)​
最终交付结构化数据库,包含政策原文 / 发布机构 / 实施时间等 12 个维度信息​
技术栈扎实:精通 Python 爬虫生态,熟练运用 Scrapy 分布式框架、Selenium 自动化、Playwright 渲染,能破解 IP 封锁(动态代理池)、滑块验证码(图像识别)、JS 加密(AST 反混淆)等 90% 以上反爬机制。

案例展示

  • 中经网序列信息爬取

    中经网序列信息爬取

    中经网作为权威经济数据平台,其官方 SqlSever 服务接入年费达 30 万元,且对非付费用户设置多重严苛技术壁垒。我曾为金融机构完成替代方案开发,核心技术突破与能力体现如下:​ 一、核心技术难点与解决方案​ 接口鉴权限制突破​ 中经网公开查询接口需通过动态签名验证(每

  • 微信公众号爬取

    微信公众号爬取

    微信公众号作为封闭生态平台,其文章数据抓取存在多重严苛限制。我曾为新媒体机构完成 500 + 垂直领域账号的历史推文采集(含阅读量、在看数等核心数据),核心技术突破如下:​ 一、核心技术难题与解决方案​ 登录态实时校验突破​ 微信公众号平台采用动态登录态校验(Cookie

查看案例列表(含更多 0 个案例)

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服