ID:407263

Hugh

爬虫工程师

  • 公司信息:
  • 新浪网
  • 工作经验:
  • 15年
  • 兼职日薪:
  • 800元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 可工作日远程
  • 所在区域:
  • 北京
  • 海淀

技术能力

一、多语言开发能力
掌握Python、Java、JavaScript、Go等主流语言,能够根据项目需求灵活选择技术栈。Python擅长快速开发中小型爬虫(Scrapy/Requests框架),JavaScript(Puppeteer/Playwright)可处理动态渲染页面,Java(Nutch/Jsoup)适用于企业级高并发场景,Go(Colly)则在高性能分布式爬虫中表现优异

。针对反爬机制,熟练运用IP代理池、请求头模拟、验证码识别等技术方案


二、全流程技术栈
数据采集:精通XPath/CSS选择器、正则表达式解析,可处理JSON/XML等多种数据格式。针对动态页面采用无头浏览器技术(Selenium/Puppeteer),应对AJAX加载和反爬检测

反反爬策略:构建分布式代理IP系统,实现请求频率控制和设备指纹模拟,突破封禁限制。掌握TLS指纹伪装、WebSocket协议逆向等高级技术
数据存储:设计MySQL/MongoDB存储架构,实现千万级数据高效存取。熟悉Hadoop/Spark生态,具备大数据清洗和ETL处理能力

项目经验

一、电商价格监控系统(Python/Scrapy+Go/Colly)
技术栈:Scrapy-Redis分布式架构 + Colly高性能采集 + Kafka实时消息队列

突破性成果:实现日均千万级数据采集,突破某头部电商平台Canvas指纹检测,通过WebGL参数模拟和浏览器环境混淆技术,使爬虫存活周期从2小时提升至72小时
。采用动态IP代理池(5000+节点轮换)和请求特征随机化技术,反爬识别率降低至0.3%

二、新闻舆情分析平台(Java/Nutch+JS逆向)
技术亮点:

破解某省级新闻网JS加密方案,逆向解析AST语法树获取动态token生成算法
构建基于SeleniumGrid的分布式渲染集群,支持同时操控200+无头浏览器实例
创新性采用请求流量染色技术,模拟32种设备指纹特征,突破UA检测封锁

数据规模:累计抓取1.2亿条新闻数据,响应延迟控制在300ms以内
三、金融数据中台(Playwright+智能解析引擎)
核心创新:

研发动态页面元素智能定位系统,通过CNN图像识别自动适应DOM结构变化
设计多协议混合采集方案,同步处理WebSocket实时行情和RESTful API历史数据
建立分级存储体系:热数据存RedisCluster(200节点),冷数据入Hive数仓
技术攻坚:破解某证券交易所WebAssembly加密模块,实现毫秒级行情抓取
四、医疗数据聚合系统(Scrapy+Splash深度整合)
工程化实践:

基于DockerSwarm构建弹性伸缩集群,资源利用率提升65%
开发智能重试中间件,根据HTTP状态码自动切换代理和请求策略
实现PDF/扫描件OCR解析流水线,文字识别准确率达98.7%
核心价值:完成全国三甲医院药品数据全覆盖,数据更新时效性达分钟级

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    1
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服