ID:417830

Justin

高级爬虫工程师

  • 公司信息:
  • 中科曙光
  • 工作经验:
  • 6年
  • 兼职日薪:
  • 800元/8小时
  • 兼职时间:
  • 周六
  • 周日
  • 所在区域:
  • 北京
  • 朝阳

技术能力

1.具备扎实的 python 基础,具有良好的代码编程习惯;
2.熟悉 python 技术体系架构,掌握 MVC 原理和爬虫技术的应用;
3.掌握 Django、Tornado、Flask 等 Web 等开源框架,深刻理解 Django 等 web 开发核心流程;
4.熟练使用 Linux 操作系统与 Linux 的基本命令;
5.熟悉 Scrapy 框架及 urllib2、requests 等爬虫技术的使用和理解;
6.熟悉 lxml,BeautifulSoup,re,json,xpath 语法规则和各个 css、selector 并进行数据提取;
7.熟练掌握 HTML5 和 CSS3,使用 CSS+DIV 进行页面布局;
8.熟练使用 Ajax、jQuery、json 等前台 js 开发技术,Bootstrap 的响应式布局等;
9.熟练使用 MySQL、Sqlite 等主流关系型数据库,redis 和 mongodb 等非关系型数据库也有较好的使用;
10.熟练使用 Docker 容器技术及 mq,kafka 消息队列技术
10.熟练使用 git、svn 等版本管理及构建工具;
11.熟悉基本算法与数据结构

项目经验

新闻类 app 和新闻类网页采集
项目描述:
1、用户需求:该项目的需求是采集各大渠道的新闻 app 和网站的新闻,会涉及到境内和境外的新闻 app 与网站,
会采集主流的新闻网站与 app,还有各个地方频道的新闻,各个 app 与新闻中又有不同的新闻频道需要采集;
2、项目部署:改项目的部署服务器有多台,因为所采集的 app 与新闻信源有很多(大概 2000 个左右),因此采集
调读程序分布式部署到了多台服务器,境外的 app 和新闻部署到了 8 太境外的服务器上,境内的服务部署到了 4
台采集服务器上,同样也使用了 docker 进行部署,采集程序则运用的则是 node 服务;
3、数据对接:需要采集的 app 和网站的频道会放入 mysql 中,解析文件中会映射数据库中对应的 app 和新闻网站
来解析不同的信源,采集到的 app 和新闻网页的数据会放入 kafka 中,供 java 展示组拿取数据。

项目名称:境外社交平台采集
项目描述:
1、用户需求:此项目主要采集的是 Facebook、twitter、Instagram、Gettr、VK 等境外社交平台,主要采集的是各
国大 V 的用户信息、用户发表的文章言论、文章评论交互信息、用户的粉丝和关注等数据。
2、项目部署:该项目大部分需要登录获取到登录的 cookies,登录成功后方可获取到需要的数据信息,因此部署了
几个刷新用户 cookies 的服务器资源,服务器主要部署的是接收 mq 任务的 node 服务,通过 mq 发送的请求字段来
触发采集任务。
3、数据对接:获取到的用户信息和数据通过 kafka 的形式进行数据回传,主要数据形式以 json 形式回传。

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服