Python编程(异步/多线程)、深入的HTTP协议理解、Scrapy/Scrapy-Redis分布式框架、高阶反爬破解(加密/验证码/动态渲染)、自动化工具(Selenium/Playwright)、数据库优化(MySQL/MongoDB/Redis)、数据清洗及数据挖掘
项目名称:全网电商数据实时采集与分析系统项目描述: 针对主流电商平台(淘宝、京东、拼多多)进行商品信息、价格、评论的实时采集,服务于公司定价策略和竞品分析。个人职责:独立设计分布式爬虫架构,使用Scrapy-Redis在Docker容器中部署,实现了爬虫节点的动态扩容。针对平台的高级反爬机制(JS加密、图形验证码),通过Selenium+Chrome Headless技术模拟人工操作,并接入自动打码平台解决验证码问题。构建高质量代理IP池,对被封IP进行自动切换和降权处理,将采集效率提升了\(300\%\)以上。利用MongoDB存储海量数据,使用Redis进行数据增量去重,确保数据采集的实效性与一致性。
对某招聘公司,招聘网站数据进行爬取,多ip,前端绕过,js逆向解析等,对数据进行去重保存,可实时更新。
对某大型视频网站数据进行爬虫,保存相关简介信息,对相关视频进行保存,绕过VIP等,对数据进行模糊处理