技术栈:Python、Scrapy、Playwright、Redis、MySQL、ProxyPool、多线程 / 异步协程
负责分布式爬虫系统的设计与开发,针对行业资讯、公开商业数据进行常态化采集。基于异步协程与多线程提升爬取效率,使用 Playwright 处理动态渲染页面、反爬验证与人机校验;搭建代理池与请求频率控制策略,配合 UA 伪装、Cookie 池规避站点反爬机制。采用 Redis 实现爬虫任务分发、去重与断点续爬,避免重复采集与任务中断问题。设计数据清洗、格式转换、脏数据过滤逻辑,结构化数据落地至 MySQL 数据库。项目稳定运行,日均采集数据量超 20 万条,爬取成功率稳定在 98% 以上,为业务数据分析提供可靠数据源。