技术:Python爬虫Web网页基础requests、urllib的使用,网页数据的解析提取BS4、pyquery、parsel的使用,关系型数据库MySQL存储和MongoDB存储等的使用,Ajax的数据爬取,异步爬虫,JavaScript动态渲染页面的爬取,会使用OCR技术识别图形
项目:爬取淘宝、电影网站的评论、评分、名称等基本数据,使用aiohttp的异步爬取一个图书网站包含数千本的图书信息,网站数据是由JavaScript渲染而得的还实现了MongoDB异步存储。实现了使用Selenium爬取电影网站,实现了JavaScript逆向爬取有API参数加密的电影
案例: 异步爬虫