ID:399717

nano

Python爬虫

  • 公司信息:
  • 工作经验:
  • 2年
  • 兼职日薪:
  • 600元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 所在区域:
  • 其他
  • 全区

技术能力

熟练掌握Python爬虫核心技术栈,能用 requests 库高效构建HTTP请求,精准处理各类响应,突破常见反爬限制(如UA伪装、Cookie处理、代理IP池搭建 );擅长用 BeautifulSoup 、 lxml 解析HTML,借助 jsonpath 提取JSON数据,针对动态渲染页面,可通过 Selenium 、 Playwright 模拟浏览器操作采集。熟悉 Scrapy 框架,能快速搭建分布式爬虫项目,实现大规模数据抓取与去重,还可结合 MongoDB 、 MySQL 完成数据存储与清洗。2年从业经验中,累计爬取过电商商品、行业资讯等多类数据,保障数据质量与采集效率,助力业务分析与决策

项目经验

项目一:电商平台商品数据全量采集

项目背景:为某电商分析公司构建商品数据中台,需采集多平台(京东、淘宝等)、多品类(3C数码、美妆)商品信息,涵盖价格、销量、评价等,支撑市场竞品分析。
技术实现:

- 基于 Scrapy 框架搭建分布式爬虫集群,通过 Redis 实现请求队列与去重,单集群支持日均千万级URL抓取;

- 针对电商平台反爬(如滑块验证码、频率限制),结合 OpenCV 图像识别突破滑块验证,用动态代理池(整合50+代理供应商)+ 随机请求头策略,将IP封锁率从70%降至5%;

- 数据清洗环节,利用 Pandas 处理脏数据(如异常价格、乱码评价),通过 MongoDB 集群存储,保障亿级数据检索响应<200ms。
成果:累计采集10万+商品、5000万+条评价数据,支撑客户推出“电商价格指数”产品,助力20+品牌优化定价策略,项目验收评分9.2(满分10)。

项目二:行业舆情实时监测系统

项目背景:为某消费品企业监控全网舆情(新闻、论坛、社交平台),需实时抓取品牌相关负面信息,第一时间预警公关风险。
技术实现:

- 采用 Python + Requests + BeautifulSoup 组合,针对新闻站点(如新浪、网易)、垂直论坛(知乎、小红书)定制爬虫规则,通过 APScheduler 定时任务实现分钟级监测;

- 攻克动态渲染页面(如微博滚动加载),用 Selenium + Chrome Headless 模拟用户行为,结合 Xpath 精准提取文本、发布时间、传播量等字段;

- 搭建舆情分析模块,调用 jieba 分词+ TextCNN 模型,对抓取内容做情感倾向判断,负面信息通过企业微信机器人实时推送。
成果:系统上线后,成功预警3起品牌负面舆情(如产品差评发酵、竞品抹黑),协助企业挽回潜在损失超500万元,被纳入年度“数字化转型标杆案例”

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    3
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服