猿急送>

北京其它兼职程序员

ID：407263

Hugh

爬虫工程师

公司信息：
新浪网

工作经验：
15年

兼职日薪：
800元/8小时

兼职时间：
下班后
周六
周日
可工作日远程

所在区域：
北京
海淀

技术能力

一、多语言开发能力
掌握Python、Java、JavaScript、Go等主流语言，能够根据项目需求灵活选择技术栈。Python擅长快速开发中小型爬虫（Scrapy/Requests框架），JavaScript（Puppeteer/Playwright）可处理动态渲染页面，Java（Nutch/Jsoup）适用于企业级高并发场景，Go（Colly）则在高性能分布式爬虫中表现优异

。针对反爬机制，熟练运用IP代理池、请求头模拟、验证码识别等技术方案
。

二、全流程技术栈
数据采集：精通XPath/CSS选择器、正则表达式解析，可处理JSON/XML等多种数据格式。针对动态页面采用无头浏览器技术（Selenium/Puppeteer），应对AJAX加载和反爬检测

反反爬策略：构建分布式代理IP系统，实现请求频率控制和设备指纹模拟，突破封禁限制。掌握TLS指纹伪装、WebSocket协议逆向等高级技术
数据存储：设计MySQL/MongoDB存储架构，实现千万级数据高效存取。熟悉Hadoop/Spark生态，具备大数据清洗和ETL处理能力

项目经验

一、电商价格监控系统（Python/Scrapy+Go/Colly）
技术栈：Scrapy-Redis分布式架构 + Colly高性能采集 + Kafka实时消息队列

突破性成果：实现日均千万级数据采集，突破某头部电商平台Canvas指纹检测，通过WebGL参数模拟和浏览器环境混淆技术，使爬虫存活周期从2小时提升至72小时
。采用动态IP代理池（5000+节点轮换）和请求特征随机化技术，反爬识别率降低至0.3%

二、新闻舆情分析平台（Java/Nutch+JS逆向）
技术亮点：

破解某省级新闻网JS加密方案，逆向解析AST语法树获取动态token生成算法
构建基于SeleniumGrid的分布式渲染集群，支持同时操控200+无头浏览器实例
创新性采用请求流量染色技术，模拟32种设备指纹特征，突破UA检测封锁

数据规模：累计抓取1.2亿条新闻数据，响应延迟控制在300ms以内
三、金融数据中台（Playwright+智能解析引擎）
核心创新：

研发动态页面元素智能定位系统，通过CNN图像识别自动适应DOM结构变化
设计多协议混合采集方案，同步处理WebSocket实时行情和RESTful API历史数据
建立分级存储体系：热数据存RedisCluster（200节点），冷数据入Hive数仓
技术攻坚：破解某证券交易所WebAssembly加密模块，实现毫秒级行情抓取
四、医疗数据聚合系统（Scrapy+Splash深度整合）
工程化实践：

基于DockerSwarm构建弹性伸缩集群，资源利用率提升65%
开发智能重试中间件，根据HTTP状态码自动切换代理和请求策略
实现PDF/扫描件OCR解析流水线，文字识别准确率达98.7%
核心价值：完成全国三甲医院药品数据全覆盖，数据更新时效性达分钟级