熟练掌握Python语言,具备扎实的Python编程功底,掌握requests, base64,Beautifulsoup,lxml等各库的使用。
熟悉网页抓取原理及技术,掌握re,xpath,html等网页信息抽取技术。
熟练使用Drissionpage进行网页自动化操作,高效处理动态网页和数据抓取
掌握MySQL和SQLIST等数据库的使用,确保数据的高效存储和检索。
善于爬取和页面内容的提取分析,设计各种算法,提升抓取的效率和质量
熟练掌握代理ip,验证码识别等技能。
熟练使用Excel,csv,ppt,word等办公软件。
项目名称:漏洞信息采集
项目描述:将网站中漏洞信息及每条信息中的详细数据全部采集并保存
技术使用:使用drissionpage控制浏览器打开网页,xpth定位取值,创建多标签页采集详细数据,使用csv进行信息储存
项目名称:影片采集
项目描述:采集网站中即将上映影片信息采集
技术使用:使用requests模块发送请求,html格式定位取值,mysql数据库储存