猿急送>

北京其它兼职程序员

ID：338772

chuan

数据挖掘工程师

公司信息：
欧普拉（Opera）软件技术有限公司

工作经验：
3年

兼职日薪：
500元/8小时

兼职时间：
下班后
周六
周日
可工作日远程

所在区域：
北京
海淀

技术能力

熟悉 Python
熟悉 MySQL、Redis，了解 Mongo
熟悉常用数据结构和算法
掌握 RabbitMQ 和 Kafka
掌握 Django，了解 Flask
掌握 Scrapy、ScrapyRedis 框架和 Selenium/Puppeteer 和 Fiddler 等抓取辅助工具
掌握 IP 封禁、Cookie 认证、字符图片验证码、滑块验证码、模拟登陆等常见反爬手段的处理方法
了解 Hadoop, Hive, Impala, Hue, Airflow, Superset 等大数据组件

项目经验

欧普拉软件技术(北京)有限公司(Opera)
数据挖掘工程师
l 独立开发分布式爬虫系统，包括 Django, RabbitMQ, Nginx, Supervisor, Celery 等组件，具有页面管理，
配置加载，定时任务，控制速度，请求去重，查看日志，原始抓取结果备份，监控报警等功能，支持每
日抓取数百万页面，稳定性高，扩展性好
l 开发管理包括亚马逊在内的约 30 个爬虫项目
l 数据统计，利用 Hadoop 组件(包括 Hive, Impala, Hue, Airflow, Superset 等)分析网站日志
北京焕然咨询有限公司(洋钱罐)
Python 工程师
l 模拟登陆用户的联通账号，抓取用户通话记录、账单、流量等历史数据
l 改进抓取系统，增加模块调度工具，增加 Kafka 队列
北京道口金科科技有限公司
数据抓取工程师
l 抓取淘宝、天猫、阿里诚信、东方财富等网站数据，抓取速度达到 150 万/天;使用 Puppeteer 模拟登陆
店铺淘宝账号
l 负责 ElasticSearch 中 2 亿多数据的导入、更新、查询等
北京善意善美网络技术有限公司(人人车)
数据抓取工程师
l 抓取瓜子、优信、58 二手车、车置宝 app、汽车之家、易车、车 300、好车无忧、车王二手车等网站的
车型、价格、车况、配置等数据