掌握 python爬虫的基本库的使用,能够使用requests,urllib,httpx等进行HTTP/HTTPS请求;
熟悉 asyncio/aiohttp 异步协程机制,以及multiprocessing多进程;
掌握使用XPath,CSS选择器,正则re进行页面解析;
透彻理解HTTP/HTTPS、TLS证书校验机制,具备Rqable,fiddler网页抓包分析能力;
掌握selenium,playwright进行网页数据自动化爬取,了解Appium,Airtest进行app数据自动化爬取;
熟悉验证码识别技术,使用OCR技术识别图像验证码,OpenCV识别滑动验证码,打码平台识别验证码;
了解使用IP代理,js逆向,python执行js代码,Hook等技术处理反爬;
熟练掌握数据清洗,能够使用re表达式,json等进行智能化处理列表页和详情页实现大规模数据清洗;
熟悉scrapy框架,会使用scrapy框架搭建分布式爬虫项目爬取日均上万数据;
掌握 版本控制工具 Git,协作管理代码
项目名称:全网招聘信息分布式智能爬取系统
项目来源:公司拓宽业务,想针对全网民办学校或者私企招聘信息进行整理,提高app的用户面向范围项目周期:2025年3月到2025年6月核心技术:Python (requests,urllib,xpath,playwright,aiohttp,scrapy,scrapy-redis,scrapyd), 数据库(Mysql,mongodb,redis), 前端(php)
项目背景与目标:依据公司规划与产品经理沟通针对全网招聘信息的进行实时采集需求,要求能够持续运行,且能够分频率针对各个网址进行设定,实时采集确保职位的实时性,有针对网络编辑部门的自动化采集页面。
个人实现内容:
1,智能源码抓取引擎:基础抓取层使用定制化Requests组件发送请求,植入动态请求头(包含自动轮换的User-Agent池和Cookies策略)渲染层自动切换到Playwright无头浏览器执行智能渲染,遇到瑞数反爬等则通过单独编写spider进行数据爬取智2,能分级清洗系统:首先进行标题的规则匹配,建立多维度匹配规则库(正则表达式+关键词权重算法),通过时间维度,关键词,排除此,联合词等规则进行权重匹配,如含有排除词考编等则直接排除,含有关键词两个如教师,招聘则通过一轮筛选;接着是公告内容解析清洗,使用XPath/CSS定位主体容器,避开干扰区块(广告/侧边栏/评论区),接着仍然使用正则和关键词权重进行确认是否为招聘信息数据存储:在进行源码抓取以及清洗的时候进行实时数据标注,(如 JS渲染标注,反爬识别),同时也保存url的访问状态码等信息,最后将url以及相关信息存入Redis中间件中进行hash去重,确保数据不重复,接着存入Mysql中完成3,最后的数据保存。
项目总结:整个项目开发周期中,团队使用git进行代码管理,开发是前后端分离,前端使用php进行web页面制作,后端主要使用python完成了整个数据采集开发,从中我完成了主要的爬虫以及清洗代码编写,顺利完成项目开发。