猿急送>

其他Python兼职程序员

ID：399717

nano

Python爬虫

公司信息：
无

工作经验：
2年

兼职日薪：
600元/8小时

兼职时间：
下班后
周六
周日

所在区域：
其他
全区

技术能力

熟练掌握Python爬虫核心技术栈，能用 requests 库高效构建HTTP请求，精准处理各类响应，突破常见反爬限制（如UA伪装、Cookie处理、代理IP池搭建）；擅长用 BeautifulSoup 、 lxml 解析HTML，借助 jsonpath 提取JSON数据，针对动态渲染页面，可通过 Selenium 、 Playwright 模拟浏览器操作采集。熟悉 Scrapy 框架，能快速搭建分布式爬虫项目，实现大规模数据抓取与去重，还可结合 MongoDB 、 MySQL 完成数据存储与清洗。2年从业经验中，累计爬取过电商商品、行业资讯等多类数据，保障数据质量与采集效率，助力业务分析与决策

项目经验

项目一：电商平台商品数据全量采集

项目背景：为某电商分析公司构建商品数据中台，需采集多平台（京东、淘宝等）、多品类（3C数码、美妆）商品信息，涵盖价格、销量、评价等，支撑市场竞品分析。
技术实现：

- 基于 Scrapy 框架搭建分布式爬虫集群，通过 Redis 实现请求队列与去重，单集群支持日均千万级URL抓取；

- 针对电商平台反爬（如滑块验证码、频率限制），结合 OpenCV 图像识别突破滑块验证，用动态代理池（整合50+代理供应商）+ 随机请求头策略，将IP封锁率从70%降至5%；

- 数据清洗环节，利用 Pandas 处理脏数据（如异常价格、乱码评价），通过 MongoDB 集群存储，保障亿级数据检索响应<200ms。
成果：累计采集10万+商品、5000万+条评价数据，支撑客户推出“电商价格指数”产品，助力20+品牌优化定价策略，项目验收评分9.2（满分10）。

项目二：行业舆情实时监测系统

项目背景：为某消费品企业监控全网舆情（新闻、论坛、社交平台），需实时抓取品牌相关负面信息，第一时间预警公关风险。
技术实现：

- 采用 Python + Requests + BeautifulSoup 组合，针对新闻站点（如新浪、网易）、垂直论坛（知乎、小红书）定制爬虫规则，通过 APScheduler 定时任务实现分钟级监测；

- 攻克动态渲染页面（如微博滚动加载），用 Selenium + Chrome Headless 模拟用户行为，结合 Xpath 精准提取文本、发布时间、传播量等字段；

- 搭建舆情分析模块，调用 jieba 分词+ TextCNN 模型，对抓取内容做情感倾向判断，负面信息通过企业微信机器人实时推送。
成果：系统上线后，成功预警3起品牌负面舆情（如产品差评发酵、竞品抹黑），协助企业挽回潜在损失超500万元，被纳入年度“数字化转型标杆案例”