基本信息

案例ID:145142

技术顾问:Defeat And Victory - 3年经验 - 宅仓网路科技有限公司

联系沟通

微信扫码,建群沟通

项目名称:唯品会scrapy

所属行业:企业服务 - 数据服务

->查看更多案例

案例介绍

项目一:对唯品会网站数据的抓取
责任描述:编写爬虫程序,想出反爬策略,数据清洗分表存储,维护代理IP池
项目简介:
项目概况:
爬取唯品会分类下所有女装.
遇到问题及解决方案如下:
1、爬取量较大,用scrapy-redis爬取,因为该框架实现url和数据去重、持久化,构建RedisSpider分布式爬虫,爬取更快
2、需要携带cookie访问网页内容,采用ip代理
3、处理反爬策略,url地址需要删除些字段可以获取json数据面
4、使用logging模块编写监控程序进行爬虫监控并根据日期定向输出日志到log文件

项目二:对58同城兼职的数据抓取
责任描述:编写爬虫程序,想出反反爬策略.数据清洗分表存储,维护代理IP池
项目简介:
项目概况:
爬取58同城兼职的数据抓取
遇到的问题及解决方案如下:
1、数据量较少,用requests爬取
2、反爬频率较高,使用快代理抓取
3、使用正则,Xpath等提取网页内容
4、保存数据到json文件
5、使用logging模块编写监控程序进行爬虫监控并根据日期定向输出日志到log文件

相似案例推荐

其他人才的相似案例推荐

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系聘用方端客服
联系聘用方端客服