ID:250132

Y

爬虫工程师

  • 公司信息:
  • 百仁科技有限公司
  • 工作经验:
  • 1年
  • 兼职日薪:
  • 1000元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 所在区域:
  • 广州
  • 天河

技术能力

掌握利用python的request库进行网页爬取,利用beautifulsoup/lxml解析网页源码,并提取所需数据等爬虫技术。
掌握利用scrapy框架构建分布式爬虫技术,掌握反爬技术,能够爬取AJAX,动态渲染的网页,并躲避大部分反爬机制。
掌握数据库交互技术,能够熟练操作MongoDB/Redis/MySQL数据库系统。
掌握数据清洗、数据分析技术,能够熟练地使用pandas、seaborn等库进行数据分析、数据可视化。

项目经验

1.基于scrapy框架构建爬虫项目,爬取摄图网(https://699pic.com/)插画类目下的所有图片,将图片保存至本地,并以图片所属类型命名图片。(共计14000张图片)

2.基于scrapy框架构建爬虫项目,爬虫起点中文网(https://www.qidian.com/)月票榜类目下的所有小说数据,提取小说名、作者、书籍类型、连载状态四个字段,并将这些数据保存至MongoDB数据库中。

3.基于scrapy框架构建爬虫项目,爬取知乎热搜榜单(https://www.zhihu.com/billboard),爬取热搜新闻标题、搜索量、新闻简介这三个字段,将爬取的数据保存至Redis数据库中,最后进行数据清洗,数据分析。

案例展示

  • 摄图网图片爬取

    摄图网图片爬取

    摄图网(https://699pic.com)是一个提供免费正版高清图片素材的网站,网站保护多个图片素材板块,本项目的任务是获取摄图网插画板块下的所有图片素材,以用于自媒体平台的文案插图。 本项目是基于scrapy框架搭建的爬虫项目,同时获取图片两个不同尺寸的缩略图。

  • 起点中文网小说数据爬取

    起点中文网小说数据爬取

    本项目任务为爬取起点小说网(https://www.qidian.com/rank/yuepiao/)中月票榜类目下的所有小说信息,爬取字段包括书名,作者,小说类型,更新状态;将爬取到的数据保存至MongoDB。

查看案例列表(含更多 0 个案例)

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系聘用方端客服
联系聘用方端客服