技术:1.熟练使用xpath、re、json模块进行数据抓取 2.熟练使用MySQL数据库,熟悉Navicat、MongoDB等数据库 3.有充足的编程能力,了解计算机网络、数据结构,Http/Https协议 4.掌握常见的爬虫、反爬虫知识及应对措施;了解Linux系统 5.熟
项目:项目:Spider Book 项目描述: 爬取各个大型图书网站,如新华书店图书网,在线网上图书一号店等。获取它们图书的名称,简介,购买量,评论量,评论数据,价格等,存入数据库。 项目技能: requests,Xpath,json,Redis,MongoDB,re
案例: Spider Book新闻资讯
技术:1.网络协议和通信:您了解常用的HTTP、HTTPS等网络协议,熟悉网络通信原理和请求响应过程 2.编 程 语 言:熟练掌握Python语言 3.数据解析和提取:您能够使用正则表达式、XPath、CSS选择器等技术,对网页进行数据解析和提取,获取所需的信息 4.反爬虫应对策
项目:作为一名爬虫工程师,我拥有以下爬虫项目经验: 国家公共卫生系统数据爬取:由本人亲自开发,通过调用百度识别,以及密码的加密,解密进入系统,通过分析网站的URL规律和页面结构,编写了该程序(该程序有以下功能:随访下载,照片下载,个人信息查询,人员信息下载,人员信息上传与审核),
案例: 工具合集一个针对晶奇系统的爬虫