熟悉 Python
熟悉 MySQL、Redis,了解 Mongo
熟悉常用数据结构和算法
掌握 RabbitMQ 和 Kafka
掌握 Django,了解 Flask
掌握 Scrapy、ScrapyRedis 框架和 Selenium/Puppeteer 和 Fiddler 等抓取辅助工具
掌握 IP 封禁、Cookie 认证、字符图片验证码、滑块验证码、模拟登陆等常见反爬手段的处理方法
了解 Hadoop, Hive, Impala, Hue, Airflow, Superset 等大数据组件
欧普拉软件技术(北京)有限公司(Opera)
数据挖掘工程师
l 独立开发分布式爬虫系统,包括 Django, RabbitMQ, Nginx, Supervisor, Celery 等组件,具有页面管理,
配置加载,定时任务,控制速度,请求去重,查看日志,原始抓取结果备份,监控报警等功能,支持每
日抓取数百万页面,稳定性高,扩展性好
l 开发管理包括亚马逊在内的约 30 个爬虫项目
l 数据统计,利用 Hadoop 组件(包括 Hive, Impala, Hue, Airflow, Superset 等)分析网站日志
北京焕然咨询有限公司(洋钱罐)
Python 工程师
l 模拟登陆用户的联通账号,抓取用户通话记录、账单、流量等历史数据
l 改进抓取系统,增加模块调度工具,增加 Kafka 队列
北京道口金科科技有限公司
数据抓取工程师
l 抓取淘宝、天猫、阿里诚信、东方财富等网站数据,抓取速度达到 150 万/天;使用 Puppeteer 模拟登陆
店铺淘宝账号
l 负责 ElasticSearch 中 2 亿多数据的导入、更新、查询等
北京善意善美网络技术有限公司(人人车)
数据抓取工程师
l 抓取瓜子、优信、58 二手车、车置宝 app、汽车之家、易车、车 300、好车无忧、车王二手车等网站的
车型、价格、车况、配置等数据