我有三年的爬虫开发经验
曾在北京任职,现任项目组长
开发过数个千万级数据量项目
WEB js协议破解 验证码绕过 风控绕过
实际做过抖音直播间弹幕爬取,小红书店,淘宝商品,京东h5st,油管视频,B站视频,国外航司,steam登录转区,瑞数5,加速乐,点选验证码,图文验证,数美滑块,混淆的逆向,srcpy,啊卡麦,5s盾
可管理海量高并发线程,处理高频请求下载与批量数据库写入操作
ubuntu系统,crawlab分布式部署平台,docker
长期维持个人服务器
1.抖音直播间弹幕与带货商品采集项目:逆向直播间 WebSocket 加密协议,采用协程 + Redis 队列实现多直播间并发实时抓取,解析弹幕、实时上架商品、销量数据,做请求指纹混淆防封禁,数据结构化入库,支撑直播选品数据分析
2.小红书逆向图文采集系统:破解接口签名、Token 校验机制,基于 Scrapy 搭建分布式爬虫,搭配代理池与断点续爬功能,批量下载笔记原图,累计采集 20 万条帖子图文素材,自动分类存储、数据去重
3.B 站、YouTube 海量视频采集工程:逆向视频分段加密地址,二次封装下载工具,分布式分片下载视频、字幕、封面,配套分盘存储与文件校验,累计产出 20TB 标准化多媒体数据集
4.瑞数 6 防护逆向攻坚:完成混淆 JS 去混淆与环境还原,纯 Python 复现加密签名逻辑,不依赖无头浏览器,搭建通用解密模块,稳定突破高难度商业 WAF,适配多家加密站点数据采集需求。
项目覆盖协议逆向、WAF 对抗、分布式海量数据采集,具备完整爬虫工程落地能力。
| 角色 | 职位 |
| 负责人 | 高级逆向爬虫师 |
| 队员 | 后端工程师 |
负责小红书全站笔记接口逆向破解,解析签名加密、token 鉴权、分页动态校验逻辑,搭建 Scrapy 分布式爬虫架构,搭配代理 IP 池、布隆过滤器去重、多线程图片异步下载模块。针对图片防盗链、资源分片加载做专项适配,自动批量下载笔记原图、封面、素材图,累计完成 20 万条笔记图
独立开发基于 WebSocket 长连接的直播实时采集工具,针对抖音直播二进制加密消息流完成协议逆向,解析弹幕、用户互动、弹窗带货商品、上架链接、实时销量数据。采用异步协程 + Redis 任务队列实现多直播间并发监听,内置请求频率控制、设备指纹随机化、连接断线自动重连机制,规避
独立开发基于 WebSocket 长连接的直播实时采集工具,针对抖音直播二进制加密消息流完成协议逆向,解析弹幕、用户互动、弹窗带货商品、上架链接、实时销量数据。采用异步协程 + Redis 任务队列实现多直播间并发监听,内置请求频率控制、设备指纹随机化、连接断线自动重连机制,规避