猿急送>

武汉其它兼职程序员

ID：398580

李3029135507

python工程师

公司信息：
伟创软件

工作经验：
1年

兼职日薪：
500元/8小时

兼职时间：
下班后
周六
周日

所在区域：
武汉

技术能力

我专注于高复杂度、大规模数据获取场景的技术攻坚与架构设计：

1. **复杂反爬对抗体系**
- 深度破解JavaScript混淆（AST解析）、验证码识别（Tesseract+CNN模型定制）、IP指纹追踪等机制
- 设计动态请求头轮换策略与浏览器指纹模拟方案，突破Cloudflare/Akamai等企业级防护

2. **亿级数据采集架构**
- 基于**Scrapy-Redis**构建分布式爬虫集群，日均稳定获取千万级结构化数据
- 使用**Splash/Puppeteer**处理动态渲染页面，集成自动重试与增量抓取策略

3. **数据治理与合规**
- 实现Robots协议智能解析，构建法律风险扫描模块（GDPR/CCPA关键词过滤）
- 开发数据质量监控系统（字段完整性≥99.5%，去重率>98%）

4. **异构数据源整合**
- 多协议支持：逆向解析APP端API（Charles/Fiddler抓包）、WebSocket实时数据流捕获
- 非结构化处理：PDF文本抽取（PyMuPDF）、图像OCR（EasyOCR）、视频元数据提取

项目经验

### 💊 医药行业全域数据智能采集系统
**项目角色**：技术负责人（爬虫架构与数据治理）
**项目背景**：某跨国药企需动态监控全球竞品信息（包括药品成分、定价、供应链层级），传统人工调研成本高昂且滞后严重，需构建自动化数据供应链。

#### 🔍 关键技术突破
1. **管理层级拓扑挖掘**
- 逆向解析 **FDA/EMA 药品审批数据库** 关联关系，构建药企-子公司-生产基地多层股权图谱
- 设计 **递归爬取算法** 穿透药企官网「投资者关系」板块，自动提取高管团队与组织架构（识别率92%）

2. **动态产品情报捕获**
- 突破医药平台 **动态验证码**：集成定制CNN模型识别复杂化合物结构验证码（成功率87%）
- 实时监控 **200+ 医药电商平台** 价格波动，采用分布式IP池（日均切换5万次）规避反爬

3. **多源异构数据融合**
- 结构化处理：PDF说明书解析（PyMuPDF+正则引擎）→ 提取适应症、不良反应等13类字段
- 非结构化分析：医生论坛情感挖掘（BERT模型）定位产品口碑风险点