技术能力:
✔ JS逆向:协议分析、加密参数还原、自动化脚本
✔ Python爬虫:Scrapy、Requests、Selenium,playwright
✔ 电商平台数据采集,第三方游戏账号交易平台,公开数据大批量采集
✔ 验证码处理与自动化识别(极验,网易易盾...)
✔ 安全防护对抗:瑞数、加速乐等
✔ 字节系评论与直播弹幕采集
✔mcp agent全自动爬虫
经验较为丰富,交付稳定
1.抖音直播弹幕实时采集(WebSocket + Protobuf + X-Bogus签名)
- Python:requests(获取直播间 room_id 与 cookie)、websocket-client(WSS长连接收包/回包)、gzip(解压)、protobuf(消息反序列化)、loguru(日志输出)
- JS逆向与签名:execjs 调用本地 JS 生成 signature(X-Bogus);crypto-js(MD5 生成 X-MS-STUB)
- 协议解析:Protobuf(douyin.proto + 生成 douyin_pb2.py)
2.云南省建设监管公共服务平台企业数据采集(滑块校验 + 加密参数逆向 + Excel落地)
- Python:requests.Session(会话维持/接口请求)、pandas(Excel导出)
- JS逆向与复用:execjs 调用本地 JS(复用站点加密逻辑)
- 加密算法:RSA(JSEncrypt 分段加密生成 params)、AES(CryptoJS AES-ECB + Pkcs7,用于滑块点位与验证码头)
- 风控处理:滑块验证码 blockPuzzle 识别(打码平台返回滑动距离 x)、二次校验后换取业务数据、翻页抓取与去重
3.赢商大数据项目库采集与结构化落地(项目列表 + 项目详情)
- 语言与运行:Python、asyncio(异步采集)
- 动态渲染采集:Playwright(自动化浏览器渲染、页面元素等待、翻页与详情抓取)
- 爬虫工程化:Scrapy + scrapy-playwright(任务调度、请求队列、可扩展管道)
- 反爬与登录态处理:浏览器登录态复用(storage_state 会话保持)、请求头/UA配置、限速与低并发控制
- 数据落地:CSV 结构化输出(字段清洗、断点续写/追加写入)
- 语言与运行:Python、asyncio(异步采集) - 动态渲染采集:Playwright(自动化浏览器渲染、页面元素等待、翻页与详情抓取) - 爬虫工程化:Scrapy + scrapy-playwright(任务调度、请求队列、可扩展管道) - 反爬与登录态处理:
使用技术(技术栈) - Python:requests.Session(会话维持/接口请求)、pandas(Excel导出) - JS逆向与复用:execjs 调用本地 JS(复用站点加密逻辑) - 加密算法:RSA(JSEncrypt 分段加密生成 params)、A