猿急送>

北京Python兼职程序员

ID：417830

Justin

高级爬虫工程师

公司信息：
中科曙光

工作经验：
6年

兼职日薪：
800元/8小时

兼职时间：
周六
周日

所在区域：
北京
朝阳

技术能力

1.具备扎实的 python 基础，具有良好的代码编程习惯；
2.熟悉 python 技术体系架构，掌握 MVC 原理和爬虫技术的应用；
3.掌握 Django、Tornado、Flask 等 Web 等开源框架，深刻理解 Django 等 web 开发核心流程；
4.熟练使用 Linux 操作系统与 Linux 的基本命令；
5.熟悉 Scrapy 框架及 urllib2、requests 等爬虫技术的使用和理解；
6.熟悉 lxml，BeautifulSoup，re，json，xpath 语法规则和各个 css、selector 并进行数据提取；
7.熟练掌握 HTML5 和 CSS3，使用 CSS+DIV 进行页面布局；
8.熟练使用 Ajax、jQuery、json 等前台 js 开发技术，Bootstrap 的响应式布局等；
9.熟练使用 MySQL、Sqlite 等主流关系型数据库，redis 和 mongodb 等非关系型数据库也有较好的使用；
10.熟练使用 Docker 容器技术及 mq，kafka 消息队列技术
10.熟练使用 git、svn 等版本管理及构建工具；
11.熟悉基本算法与数据结构

项目经验

新闻类 app 和新闻类网页采集
项目描述：
1、用户需求：该项目的需求是采集各大渠道的新闻 app 和网站的新闻，会涉及到境内和境外的新闻 app 与网站，
会采集主流的新闻网站与 app，还有各个地方频道的新闻，各个 app 与新闻中又有不同的新闻频道需要采集；
2、项目部署：改项目的部署服务器有多台，因为所采集的 app 与新闻信源有很多（大概 2000 个左右），因此采集
调读程序分布式部署到了多台服务器，境外的 app 和新闻部署到了 8 太境外的服务器上，境内的服务部署到了 4
台采集服务器上，同样也使用了 docker 进行部署，采集程序则运用的则是 node 服务；
3、数据对接：需要采集的 app 和网站的频道会放入 mysql 中，解析文件中会映射数据库中对应的 app 和新闻网站
来解析不同的信源，采集到的 app 和新闻网页的数据会放入 kafka 中，供 java 展示组拿取数据。

项目名称：境外社交平台采集
项目描述：
1、用户需求：此项目主要采集的是 Facebook、twitter、Instagram、Gettr、VK 等境外社交平台，主要采集的是各
国大 V 的用户信息、用户发表的文章言论、文章评论交互信息、用户的粉丝和关注等数据。
2、项目部署：该项目大部分需要登录获取到登录的 cookies，登录成功后方可获取到需要的数据信息，因此部署了
几个刷新用户 cookies 的服务器资源，服务器主要部署的是接收 mq 任务的 node 服务，通过 mq 发送的请求字段来
触发采集任务。
3、数据对接：获取到的用户信息和数据通过 kafka 的形式进行数据回传，主要数据形式以 json 形式回传。