技术:熟练掌握 requests 库,以及 scrapy 框架的使用,能够高效的使用爬虫完成任务; ★ 熟练使用 re 模块,xpath,beautifulsoup 等解析规则的使用; ★ 能够完成一些常规的验证码处理;掌握 selenium 上的 chrome,phantomjs
项目:启信宝数据抓取 项目概述: 针对启信宝的一些公司数据进行抓取; 启信宝的数据有很强的封禁 ip 以及账户的措施,字体反爬; 项目成果: 最终通过百度百科的借口访问到启信宝的页面进行数据抓取(不过只能抓取到每一个模块的第一页), 该网站采用的是静态字体反爬,直接可以找到相应的
案例: 爬虫Django网站设计