熟练掌握 requests 库处理各类HTTP请求(GET/POST),能够构建从简单到复杂的请求头参数,模拟浏览器行为。
熟练使用正则表达式进行字符串精准匹配与数据提取。
熟练运用bs4(Beautiful Soup) 结合CSS选择器解析静态HTML页面,具备多个实战案例经验。
熟练运用XPath 语法进行高效节点定位与数据提取。
掌握PyQuery 的使用,能够像操作jQuery一样解析文档。
理解Web请求全过程及HTTP协议原理,能够分析浏览器开发者工具(Network面板)。
能够处理常见的反爬机制,如处理Cookie进行会话维持(登录小说网案例)。
了解防盗链(Referer)的处理方法(梨视频案例)。
掌握代理IP的使用方法,包括第三方代理接入,用于规避IP封禁。
掌握多线程、多进程及线程池技术,能够利用并发提升爬取效率(如新发地菜价抓取案例)。
理解协程概念,掌握多任务异步协程及aiohttp库的使用,能够编写异步爬虫实现高效数据抓取(小说网站案例)。
了解视频网站抓取逻辑及Selenium自动化工具的基本入门操作。
了解scrapy框架,做过简单的爬虫(4399游戏内容爬取),
豆瓣电影TOP250数据抓取与分析
优美图库高清图片爬虫
网易云音乐评论爬取与反爬突破
逆向分析评论接口的加密参数(params和encSecKey),通过模拟JavaScript加密逻辑构造合法请求。
电影天堂电影信息爬虫(正则表达式实战)
异步协程爬取西游记全本