专注高难度数据采集,精通JavaScript逆向(AST反混淆/WebAssembly解析),24小时内破解京东动态Token、抖音X-gorgon签名等加密体系。独创浏览器指纹模拟技术,对抗Canvas/字体检测,有效请求率保持95%+。构建分布式代理池与智能调度系统,日均处理千万级请求,支持B站弹幕、抖音直播等实时抓取,延迟低于300ms。自研自动化爬虫框架,集成动态规则解析、流量伪装(TLS指纹修正/鼠标轨迹模拟)及异常自愈机制,数据准确率超99%。长期稳定突破主流平台反爬策略,存活周期60天+,适用于电商价格监控、舆情分析等场景,技术闭环覆盖采集至清洗全流程。
3天完成Hadoop+Spark大数据可视化平台搭建,支撑日均TB级数据处理,通过Kafka实时采集、Superset可视化实现毫秒级响应,提升业务决策效率30%+。专注高难度逆向工程,24小时破解京东动态Token反爬体系,采用AST反混淆+分布式集群技术,实现百万级商品数据毫秒级捕获,解析准确率99%。累计攻破B站protobuf加密、抖音X-gorgon签名、豆瓣IP检测等200+个反爬案例,自研智能爬虫框架支持动态规则解析,日均稳定采集千万级数据。技术栈覆盖Hadoop/Spark生态链、Selenium自动化及Wasm逆向,具备全链路数据闭环交付能力,擅长电商监控、舆情分析等场景。
角色 | 职位 |
负责人 | python工程师 |
队员 | 后端工程师 |
【京东商业数据智能采集系统】 基于深度逆向工程构建高并发企业信息采集解决方案,核心技术突破: 风控对抗体系:破解动态Token生成算法+环境检测机制,通过请求指纹混淆(TLS指纹伪装/Header熵值平衡)实现请求特征隐身 亿级并发架构:分布式节点集群(500+节点
【大数据可视化平台建设】 基于Hadoop+Spark构建实时分析引擎,集成ClickHouse实现毫秒级OLAP查询,日均处理TB级企业数据。设计多维度数据管道,通过Kafka实时接入京东店铺/商品数据流,利用Flink进行实时清洗聚合,数据呈现延迟压降至3秒内。前端采用Su