ID:246572

Lemon_guess

爬虫工程师

  • 公司信息:
  • 河北萌兔网络科技有限公司
  • 工作经验:
  • 3年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 可工作日远程
  • 所在区域:
  • 北京
  • 海淀

技术能力

1.有良好的python基础以及编程习惯
2.了解http/https协议,socket编程等网络通信知识
3.熟悉Linux环境、常用命令,熟悉MySQL、Redis、MOngoDB数据库的使用
4.熟悉SQL语句,会使用numpy、pandas、matplotlib等模块进行数据分析
5.熟练使用正则表达式、Beatiful Soup、xpath等,能够从网页中获取信息
6.熟悉scrapy框架及其中间件的使用,熟悉CrawlScrapy框架
7.熟悉scrapy-redis分布式框架,了解多线程、协程方法
8.熟练使用selenium+phantomJS实现XHR抓取,IP池构造及维护
9.了解HTML+CSS网页设计,以及一些JavaScript,ajax,jQuery脚本内容
10.了解数据加密方式,可进行JS逆向破解,以及一些验证码识别
11.会使用Appium进行手机端app数据采集

项目经验

项目一:安居客房价信息采集
项目简介:
此项目是对安居客房价数据进行提取。
责任描述:
1.分析url,找到正确的首页start_url;
2.引擎从调度器中抽取start_url用于抓取数据;
3.引擎把url封装成request传给下载器;
4.下载器把资源下载下来并封装成应答包Response;





5.解析Response,把item交给管道Pipline进行下一步处理;
6.若解析了url则交给调度器等待抓取。
负责该项目的各省市房价指数信息提取
项目二:天猫商城/京东商城
项目简介:
根据业务要求,收集各类商品的天猫与京东销售情况,型号折扣及价格的趋势。
责任描述:
1.使用scrapy框架;
2.使用XPath,正则进行页面分析并提取数据;
3.使用MySQL进行信息存储;
模块介绍:
1.spider模块:处理url地址和需要的数据
2.下载中间件模块:设置代理ip和User-Agent;
3.管道模块:与数据库交互并保存数据
项目三:36氪网站信息提取
项目简介:
此项目是对开氪网合作客户信息抓取
责任描述:
1.使用selenium+phantomJS/Chrome-headless获取动态页面并触发click事件,获取下一页信息
2.使用requests_html进行ajax请求
3.使用XPath,正则(re)进行页面分析并提取数据
4.使用redis和json进行信息存储

案例展示

  • 天猫数据爬取

    天猫数据爬取

    项目简介: 根据业务要求,收集各类商品的天猫与京东销售情况,型号折扣及价格的趋势。 责任描述: 1.使用scrapy框架; 2.使用XPath,正则进行页面分析并提取数据; 3.使用MySQL进行信息存储; 模块介绍: 1.spider模块:处理url地

  • 安居客房价信息采集

    安居客房价信息采集

    项目简介: 此项目是对安居客房价数据进行提取。 责任描述: 1.分析url,找到正确的首页start_url; 2.引擎从调度器中抽取start_url用于抓取数据; 3.引擎把url封装成request传给下载器; 4.下载器把资源下载下来并封装成应答包Respon

查看案例列表(含更多 0 个案例)

相似人才推荐

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系聘用方端客服
联系聘用方端客服