ID:191144

那七秒的记忆 身份已认证

爬虫工程师

  • 公司信息:
  • 暂无
  • 工作经验:
  • 1年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 可工作日驻场(自由职业原因)
  • 所在区域:
  • 山东
  • 全区

技术能力

个人简介
本人为编程爱好者,目前为在校大学生,有过几单爬虫爬虫开发经验,希望想通过接单来提升自己实战经验并为你提供切实需求
专业技能 1、熟练掌握 requests,scrapy模块发送请求,获取响应后处理网页数据,熟练构建分布式爬虫,Linux下的定时启动爬虫
2、熟练使用正则表达式、xpath、Selenium、PhantomJS提取网页元素
3、熟练使用requests和scrapy、selenium的模拟登录
4、能熟练使用打码平台处理常见验证码
5、熟练使用mysql、redis、MongoDB的增删改查

项目经验

沃保保险网 项目描述: 项目概况: 爬取沃保网全国各个保险公司下皇冠会员、钻石会员分类下的所有保险代理人的姓名、微信二维码图片、城市、保险公司、个人网站、保险从业资格证号等信息,其中保险从业资格证号信息从详情页获取,其他均从列表页即可获取 遇到问题及解决方案如下: 1、需要爬取的数据经过分析,得出是所需要的数据可
通过POST请求并携带参数得到,考虑到数据量较多,采用scrapy-redis进行爬取,因为该框架实现url和数据去重、持久化、分布式比较方便,构建RedisSpider分布式爬虫,爬取更快 2、下载的微信二维码图片有些因为格式原因无法打开,筛选出来,通过os模块对这些图片批量重命名加后缀 3、每个代理人的个人网站详情页页面模板不太一样,但是有三种页面的HTML结构,在提取资格证号的时候,需要编写三种页面的xpath提取代码,进行三次判断,对应每种页面的HTML特征,适用对应的提取方法 4、考虑网站能否打开和打开时间问题,一般需要加异常判断、超时、retry等减少报错 5、数据按保险公司分表存储于mysql,减轻一个表的负载 6、爬取的数据通过redis集合、sha1加密,等技术手段,实现新提取的数据保存,已爬过的数据更新的断点续爬功能。 7、构建USER-AGENT池,使用随机代理,随机IP采用阿布云动态IP 8、使用logging模块编写监控程序进行爬虫监控,并根据日期定向输出日志到log文件 个人职责: 编写爬虫程序,想出反反爬策略,数据清洗,分表存储,维护代理ip池

案例展示

  • 豆瓣电影信息,淘宝商品信息

    豆瓣电影信息,淘宝商品信息

    沃保保险网 项目描述: 项目概况: 爬取沃保网全国各个保险公司下皇冠会员、钻石会员分类下的所有保险代理人的姓名、微信二维码图片、城市、保险公司、个人网站、保险从业资格证号等信息,其中保险从业资格证号信息从详情页获取,其他均从列表页即可获取 遇到问题及解决方案如下: 1、需要

  • 电子商城

    电子商城

    本系统主要实现不同分类下的商品的展示与在线购买商品以及相关商品信息的浏览,该系统分为前台和后台两大部分。前台主要功能模块包括商品类型、商品检索、首页-单品页、订单支付、购物流程;后台主要功能为数据等业务逻辑的处理 项目使用到的技术:servlet,jsp,AJAX,jstl核心标

查看案例列表(含更多 0 个案例)

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系聘用方端客服
联系聘用方端客服