技术栈:
1、Python(Scrapy, BeautifulSoup, Requests, Selenium, Playwright)
2、 分布式爬虫(Scrapy-Redis, Celery)
3、 反爬破解(验证码识别、IP代理池、请求头模拟、JS逆向)
4、数据清洗(Pandas,正则表达式,XPath)
5、数据库存储(MySQL, MongoDB, Redis)
6、漏洞渗透测试
项目经验:
曾为某跨境电商公司搭建千万级商品价格监控系统
突破某头部社交平台动态加密算法实现高稳定性采集
设计高匿代理IP池解决方案,日均采集数据超500万条
腾讯招聘岗位爬取,作品全权开发,能爬取腾讯招聘的全部信息,并且接入数据库保存,采用单线程爬虫,避免封禁ip
4399爬虫,能爬取全站的4399游戏信息,并且保存到mysql数据库,采用单线程爬虫,防止ip封禁