基本信息

案例ID:193624

技术顾问:昵称 - 6年经验 - 山西长河科技有限公司

联系沟通

微信扫码,建群沟通

项目名称:图书网站爬取

所属行业:工具 - 云盘|下载

->查看更多案例

案例介绍

项目描述:爬取各个大型图书网站,如新华书店图书网,在线网上图书一号店等。获取它们图书的名称,简介,购买量,评
论量,评论数据,价格等,存入数据库。
项目技能:requests,Xpath,json,Redis,MongoDB ,协程,re
项目职责:
1.使用 requests 模块,发送 http 请求,使用协程进行爬取网页,提高爬虫效率
2.分析需要爬取的数据,发现在 ajax 请求中,数据格式为 json 。使用 re 模块在返回的 response.content 中匹配需求数据,获取
到数据
3.自定义 get_ua 函数,,调用 get_ua 随机获取 user-agent ,对 request 对象来进行包装,应对反爬

相似案例推荐

其他人才的相似案例推荐

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系聘用方端客服
联系聘用方端客服