爬虫技术栈:精通 Requests 高并发请求与反爬对抗,熟练 Scrapy 框架开发分布式爬虫系统;掌握 Playwright 自动化控制浏览器技术,破解动态渲染、验证码及浏览器反调试;熟练应用 XPath / jsonpath 实现复杂结构数据解析,准确率 >99%
逆向工程能力:深度破解 JS 参数加密,逆向还原核心算法逻辑;突破浏览器反调试:通过 Mitmproxy 注入代码、环境变量伪装 绕过调试检测;解决主流反爬机制:动态字体加密映射、JS 动态加载、验证码识别(OCR/行为模拟)
数据存储与工程化:构建高效数据管道:掌握 MongoDB 数据库存储,Excel 表格存储输出;设计IP代理池 / 请求熔断机制,保障千万级数据稳定采集。
数据处理与分析:具备扎实的统计学基础和Python数据分析能力,擅长从海量用户/业务数据(如清洗分析10万+条数据)中提炼洞察,定位问题(如精准定位6项关键业务问题),并通过可视化报表驱动业务决策与优化;
小红书评论采集:基于 Requests 实现自动化批量请求,破解逆向参数加密算法,有效抓取评论数据
猫眼实时票房监控:采用 Playwright 动态渲染破解JS加载,设计字体加密解析模块 精准提取票房/排片数据,分钟级更新准确率 >99%
学术论坛评论获取:通过 Mitmproxy 拦截并替换反调试代码,突破学术平台(知网/万方等)调试检测,实现长期稳定采集
大麦网演出数据:搭建 Scrapy-Redis 分布式集群,部署 自适应IP代理池 保障50+城市演出数据持续捕获