精通Python,熟练掌握Requests/httpx、BeautifulSoup/Parsel、Pandas/NumPy。
理解多进程/多线程/协程,能优化爬虫采集效率。
掌握Selenium、Playwright,处理Ajax加载、页面懒加载和复杂交互。
熟悉常规反爬机制(浏览器指纹等),js逆向(包括加密,混淆)
实现扫码登录与Cookie登录双模式。首次运行或Cookie失效时,自动获取二维码并轮询扫码状态,提取Cookie;同时支持加载本地保存的Cookie,登录态持久化至Redis,避免重复登录。
逆向分析B站WBI签名算法,使用PyExecJS模拟执行JS绕过签名校验;自建代理IP池,封禁率<5%;通过Playwright修改浏览器指纹规避检测。
基于Scrapy-Redis分布式爬虫,支持关键词搜索、视频详情、评论、弹幕等多维度采集,日均处理数据3w+条。
视频信息、评论、弹幕等结构化数据存入MySQL,便于持久化查询与分析;Redis用于请求队列、指纹去重及登录态缓存;用Pydantic定义数据结构,清洗校验;用Pandas进行情感分析和热度统计,生成词云、ECharts报表。