1. 核心语言
- Python(精通):异步编程(asyncio)、多线程/进程、元编程
- SQL(熟练):复杂查询优化、索引设计
2. Web框架
- Django(DRF):RESTful API开发、JWT认证、中间件定制
- FastAPI:高性能API开发、自动文档生成(Swagger)
3. 爬虫生态
- 框架:Scrapy(分布式爬虫)、Selenium(动态渲染)、Pyppeteer
- 反爬破解:IP代理池(付费API+自建)、验证码识别(OCR/Tesseract)、User-Agent轮转
- 数据清洗:XPath/BeautifulSoup、Pandas数据处理
4. 自动化运维
- 任务调度:Celery + Redis/RabbitMQ(定时任务/异步队列)
- 监控报警:Prometheus + Grafana(接口性能监控)
- 部署:Docker容器化、Nginx配置、Shell脚本
5. 云服务 & API集成
- 云平台:AWS S3/EC2、阿里云OSS
- 第三方API:支付(支付宝/微信)、地图(高德API)、短信(Twilio)、飞书/钉钉/企业微信机器人告警
6. 数据库
- 关系型:MySQL(主从分离)、PostgreSQL(JSON字段查询)
- NoSQL:MongoDB(海量日志存储)、Redis(缓存/分布式锁)
项目一:电商价格监控系统(爬虫+自动化)
技术栈:Scrapy-Redis + Django + Celery + MySQL
核心工作:
设计分布式爬虫集群,日均抓取京东/淘宝等平台200万条商品数据,突破反爬策略(动态IP代理+请求指纹混淆)
开发价格波动预警模块,Celery定时分析历史价格,降价超15%时触发邮件/短信通知
构建数据清洗管道,使用Pandas匹配商品规格(如“iPhone12 128G 蓝色”),准确率98%
实现自动化部署:Docker-Compose一键部署爬虫节点