熟练掌握Python编程语言,具备扎实的自动化爬虫开发能力,熟悉DrissionPage、Requests、Selenium等主流框架,能够高效采集各类公开网站数据。掌握代理IP轮换、请求头伪装等反爬策略,熟悉XPath、CSS选择器等数据解析方式。具备数据处理基础,能运用Pandas进行数据清洗、转换与统计分析。了解MySQL数据库操作与Excel自动化办公场景,可按需求将爬虫脚本打包为独立可执行文件。
熟练运用Python + Requests库采集公开网站数据,通过调用代理接口实现代理IP的获取与筛选,为爬虫提供稳定的IP资源池。独立完成中服网女装商品信息采集,提取品牌、价格、商品名称等核心字段,并将数据存储为CSV格式。同时具备App端数据采集经验,调用接口获取App指数相关数据。所有项目均按需求高效交付,代码可打包为exe文件运行。
通过Requests库请求快代理免费页面,正则匹配提取JSON数据,解析IP、端口、有效性状态及更新时间字段,筛选后存入CSV文件,实现代理IP的自动采集与存储功能。
通过Requests请求网易云热歌榜,正则提取歌曲ID和名称,拼接音乐链接后多线程下载MP3文件。实现榜单歌曲批量快速下载,提高获取效率。
通过Requests请求网易云热歌榜,正则提取歌曲ID和名称,拼接音乐链接后多线程下载MP3文件。实现榜单歌曲批量快速下载,提高获取效率。