ID:206210

天奇

高级爬虫工程师

  • 公司信息:
  • 走吧科技
  • 工作经验:
  • 3年
  • 兼职日薪:
  • 700元/8小时
  • 兼职时间:
  • 可工作日驻场(自由职业原因)
  • 所在区域:
  • 北京
  • 海淀

技术能力

1,使用过selenium,scrapy,pyspider,appium等爬虫框架
2, 精通http底层协议;精通深度抓取、动态网页技术抓取、浏览器模拟抓取技术等,从结构化的和非结构化的数据中获取信息
3,熟练使用python,java编程
4,熟练使用抓包工具,调试请求接口,获取api网址数据
5,有逆向js,破解网址加密的经验
6,搭建分布式
7、负责所分配模块的代码开发及优化
8、使用Jsoup、httpClient、selenium、OKHttp等技术对指定的多个网站的网页进行数据的提取
9、搭建redis、mongodb集群,对数据进行去重和缓存
10、利用MR对数据进行清洗(脏数据清洗、广告词过滤)
11、负责特殊网页采集任务的分析及采集方案设计 、参与开发和优化分布式爬虫系统
12 、按照需求文档进行编码、测试、维护,并编写注释和开发文档。
13、基于Hadoop生态大数据平台的建设、开发;
14、协同团队分析并解决软件开发中的问题,并提出一定的解决方案;

项目经验

大数据舆情检测平台

项目架构:jdk1.8+Maven+MySQL+MongoDB+Redis+Tomcat+SSM 框架+爬虫 框架 +Hadoop 框架
开发工具:idea
项目描述: 本系统从互联网采集数据并进行整理,用户可以方便快捷的查看数据,快速定位重大舆情信息,进行监测管理。本系统主要通过时间和区域两个维度及时发现相关舆情,以达到及时处理的目的。根据所设置分类,对信息进行整理。用户可自建简报,导出相关数据,整理上报。对于重大信息,以邮件发送、手机推送、电脑弹窗等方式及时发送给用户,以便及时掌握舆情,快速应对。

1、通过Jsoup,httpclient,htmlunit,selenium,OKHttp数据采集技术对微博、微信、论坛、报刊、新闻等网站信息将信息采大型招标数据采集集回来。
2、将数据用Redis去重、清洗入库。
3、将数据放入Hbase备份与存储。
4、负责特殊网页采集任务的分析及采集方案设计。
5、参与开发和优化分布式爬虫系统

-----------------------------------------------------------------------------------------------------------------

大型招标数据采集

项目架构 :HttpClient+Htmlunit+Selenium+Jsoup+Redis+Maven+Xpath+Css
开发工具:idea
项目介绍:收集各个城市招标信息,对互联网上海量招标网站进行采集,对网站进行分类,不同网站不同采集策略。

1.采集互联网上的招标信息
2分类采集,如果是静态网站,则直接用httpclient下载页面,如果是动态网站,则抓取json网址或找 到api网址然后用Httpclient或jsoup下载页面,如果是app则进行抓包破解其网址拼接规则,找出用来传送数据的网址,用httpclient下载页面。然后用xpath或css或正则解析出需要的信息。
3,使用redis数据库对网址和新闻标题去掉重复帖子
4,根据不同城市分类存储在mysql和mongdb中

-----------------------------------------------------------------------------------------------------------------
分布式互联网信息釆集系统

项目架构:Zookeper+Redis+Quartz+代理池+爬虫框架+mysql+Redis+MongDb
开发工具:idea
项目描述:本项目为互联网信息采集系统,系统可实现互联网的信息采集与存储,采用分布式采集架构,实现多个爬虫端共同作业,对于已配置网站实现7×24小时监控采集,为云网端與情服务平台提供数据支持。

1、负责所分配模块的代码开发及优化
2、对指定的多个网站的网页进行网页抓取、 数据的提取、清洗、入库
3、负责特殊网页采集任务的分析及采集方案设计
4、参与开发和优化分布式爬虫系统
5、遵循开发管理流程,编写和完善设计文档

案例展示

  • 微信,微博舆情数据采集

    微信,微博舆情数据采集

    对于新浪微博的用户信息,和微博信息做爬取,构建爬虫系统 架构主要分两部分,下载器(Downloader)和提取器(Extractor)。下载器专注于数据的下载,可为下载器配置UA池或fake_useragent、cookie池、代理IP池(需要本地维护),不会做任何数据处

  • 大数据舆情监测平台

    大数据舆情监测平台

    项目架构:jdk1.8+Maven+MySQL+MongoDB+Redis+Tomcat+SSM 框架+爬虫 框架 +Hadoop 框架 开发工具:idea 项目描述: 本系统从互联网采集数据并进行整理,用户可以方便快捷的查看数据,快速定位重大舆情信息,进行监测管理。本系

查看案例列表(含更多 0 个案例)

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系聘用方端客服
联系聘用方端客服