本人熟练掌握 Python 爬虫开发,能够独立完成从需求分析、数据采集到清洗存储的全流程工作。在静态页面抓取方面,熟练使用 requests进行高效解析和数据提取;对于动态渲染、Ajax 异步加载的页面,熟练掌握 seleium模拟浏览器操作,并能结合抓包工具(Fiddler/Charles)分析 XHR 请求,直接构造接口调用获取真实数据。
针对各类反爬机制,具备丰富的实战经验:能够配置动态代理 IP 池(如携程代理、阿布云),能处理简单的滑块验证码(对接第三方打码平台或使用 ddddocr 识别坐标),并能模拟正常用户的鼠标轨迹和操作时间间隔。对于需要登录后才能采集的数据。
在分布式爬虫方面,了解 Scrapy + Scrapy-Redis 框架,可实现多节点并发抓取。数据存储上,熟练使用 MySQL/SQLite 等关系型数据库,以及 MongoDB 等 NoSQL 数据库,并可导出为 Excel、CSV、JSON 等格式。。
独立开发了一个针对某主流电商平台的商品评论爬虫。该网站采用动态加载且具有简单的反爬机制(如请求频率限制、偶尔出现的滑块验证)。我通过抓包分析定位到评论数据接口,利用 requests 模拟请求并动态添加 cookies 和 headers,结合 time.sleep 随机间隔规避频率检测。同时,引入ddddocr本地识别滑块缺口坐标,配合Selenium模拟人工滑动,成功通过验证。共采集超过10万条评论数据,并利用 pandas 进行清洗、去重,最后存入 MongoDB。在此基础上,调用百度情感分析API对评论文本进行情感倾向判断,将结果以可视化图表(pyecharts)呈现,帮助客户快速了解产品口碑。该项目交付稳定运行3个月,未出现封IP或数据中断。
该工具支持从目标网站(如中国,红旗,等)按关键词、分类或单个图集链接进行批量下载。主要功能包括: 输入关键词或专辑ID,自动解析分页参数,抓取所有高清原图; 内置延迟、重试和代理切换机制,有效规避简单反爬; 自动生成Excel清单,记录图片标题、原图链接、存储路
自动分页抓取,支持增量更新,每日定时检测最新期号; 清洗非结构化文本,统一格式存入MySQL数据库; 提供前端表格可视化展示(如上图所示),可按期号排序、关键词筛选; 导出Excel报表,用于个人数据分析或彩票研究。 本作品展示了我从数据抓取、数据清洗到数