技术:熟练掌握 Python 语言,Linux 基本操作; 熟悉Requests, Scrapy 框架,Scrapy-Redis 分布式爬虫; 熟悉HTML,CSS,及多线程,多进程,HTTP/HTTPS协议; 熟练利用Xpath、CSS选择器,正则进行数据提取; 熟悉网
项目:项目名称:京东商品爬虫 项目描述:抓取指定商品的名称,价格,促销,评论等基本信息 项目过程: 1)根据需求确定数据模型,构造请求地址; 2)解析列表页,提取商品ID, 利用fiddler手机抓包抓取json数据; 3)构造商品详情页请求,实现翻页功能,jsonpa
案例: 京东商品爬虫