ID:398580

李3029135507

python工程师

  • 公司信息:
  • 伟创软件
  • 工作经验:
  • 1年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 所在区域:
  • 武汉

技术能力

我专注于高复杂度、大规模数据获取场景的技术攻坚与架构设计:

1. **复杂反爬对抗体系**
- 深度破解JavaScript混淆(AST解析)、验证码识别(Tesseract+CNN模型定制)、IP指纹追踪等机制
- 设计动态请求头轮换策略与浏览器指纹模拟方案,突破Cloudflare/Akamai等企业级防护

2. **亿级数据采集架构**
- 基于**Scrapy-Redis**构建分布式爬虫集群,日均稳定获取千万级结构化数据
- 使用**Splash/Puppeteer**处理动态渲染页面,集成自动重试与增量抓取策略

3. **数据治理与合规**
- 实现Robots协议智能解析,构建法律风险扫描模块(GDPR/CCPA关键词过滤)
- 开发数据质量监控系统(字段完整性≥99.5%,去重率>98%)

4. **异构数据源整合**
- 多协议支持:逆向解析APP端API(Charles/Fiddler抓包)、WebSocket实时数据流捕获
- 非结构化处理:PDF文本抽取(PyMuPDF)、图像OCR(EasyOCR)、视频元数据提取

项目经验

### 💊 医药行业全域数据智能采集系统
**项目角色**:技术负责人(爬虫架构与数据治理)
**项目背景**:某跨国药企需动态监控全球竞品信息(包括药品成分、定价、供应链层级),传统人工调研成本高昂且滞后严重,需构建自动化数据供应链。

#### 🔍 关键技术突破
1. **管理层级拓扑挖掘**
- 逆向解析 **FDA/EMA 药品审批数据库** 关联关系,构建药企-子公司-生产基地多层股权图谱
- 设计 **递归爬取算法** 穿透药企官网「投资者关系」板块,自动提取高管团队与组织架构(识别率92%)

2. **动态产品情报捕获**
- 突破医药平台 **动态验证码**:集成定制CNN模型识别复杂化合物结构验证码(成功率87%)
- 实时监控 **200+ 医药电商平台** 价格波动,采用分布式IP池(日均切换5万次)规避反爬

3. **多源异构数据融合**
- 结构化处理:PDF说明书解析(PyMuPDF+正则引擎)→ 提取适应症、不良反应等13类字段
- 非结构化分析:医生论坛情感挖掘(BERT模型)定位产品口碑风险点

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服