猿急送>

北京Python兼职程序员

ID：156424

小蚂蚁

python爬虫工程师

公司信息：
百度

工作经验：
5年

兼职日薪：
1500元/8小时

兼职时间：
下班后
周六
周日

所在区域：
北京
海淀

技术能力

架构层：scrapy及scrapy-redis爬虫架构整体搭建(之前在公司单独做过类似架构搭建，小说抓取项目，各媒体平台账号统一数据抓取整理)；
反爬处理：精通滑块验证码破解(登录验证)，IP防封(代理池搭建)，selenium+phantomjs(Google headless或firefox headless)特定页面抓取，js加密破解(部分页面加密数据加载)，请求数据校验破解(部分请求的token)，了解APP模拟及接口签名破解，cookie登录管理(池搭建和生命周期管理)。
整体爬虫维护：spider生命周期和抓取日志监控，数据抓取预警，反爬和模板调整，抓取性能优化。
后台接口：熟悉flask创建部分轻量级接口，了解django搭建数据展示站点。
数据库层面：熟悉MySQL，Sqlserver，Redis，了解MongoDB。
结构化页面处理：精通xpath，re，json，HTML，了解Dom，CSS；
数据整理：jieba分词，数据模块化处理(增删改)；
服务器：熟悉Linux系统项目部署及环境搭建。

项目经验

业务层面：站点视频数据抓取(包括但不限于优酷、爱奇艺、cntv、b站等视频站点) ，各站点文章数据抓取(包含各类国内国外站点) 公司主要做媒体网站数据聚合服务，涉及到的业务主要是抓取各类媒体网站文章信息，并做数据清理和结构化处理。
主要涉及技术点包括架构层面：公司自建爬虫架构，包含老系统改造，建立架构层面的scrapy，scrapy-redis
反爬层面：IP防封，访问频次处理，模拟验证码操作，登录cookie处理，数据js 加密。
项目职责：运用 Python爬虫系统自建分布式爬虫 flask接口开发，反selenium+phantomjs模拟抓取(豆瓣搜索接口破解) 抓取方式：网页抓取，APP抓取，全站深度优先抓取，广度优先抓取(优酷网全网视频数据深度抓取) 系统层面：爬虫运行状态监控，日志处理系统，爬虫抓取性能持续优化。
抓取方式：网页抓取，APP抓取。
项目业绩：完成了全站深度优先抓取，广度优先抓取系统层面的爬虫运行状态监控，日志处理系统，爬虫任务调度系统，爬虫抓取性能持续优化。