ID:144473

Bing

Python爬虫工程师

  • 公司信息:
  • 博答企业管理
  • 工作经验:
  • 2年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 所在区域:
  • 杭州
  • 下城

技术能力

1:具有良好的编程功底,精通 Python 编程,良好的代码风格。
2:熟练掌握运用 Python 采集各类网站数据,多线程,多进程和队列的使用。
3:熟练使用正则表达式、CSS、Xpath 等网页信息抽取技术,熟悉 http 协议。
4:精通使用 Selenium、Phantomjs,Splinter 等工具的使用以及自动化设置。
5:熟练掌握 Scrapy 框架完成数据的采集,分布式爬虫的设计与实现。
6:熟悉利用 Redis 对 Scrapy 控制爬取数据的分布式的操作。
7:了解 Cookie 的登录原理,分析多个网页的抓取规则,以及一些数据清洗。
8:熟悉 Django Web 开发框架,Nginx 项目部署以及了解 docker 的使用。
9: 熟练掌握 HTML,JSP,JavaScript,CSS 语言,熟练使用 AJAX,以及熟悉前端 bootstrap
的一些使用。
10:熟练掌握 Linux 常用命令的使用以及开发环境,熟悉 Docker 容器。
11:熟练使用 MySQL 数据库编程,熟悉 Redis 的使用。
12:熟练掌握 Java 编程语言,熟练使用 Spring、Spring MVC、Mybatis、Spring Boot。
13:了解关于 Python 机器学习的一些算法并且对机器学习和人工智能领域很感兴趣

项目经验

电子元器件和新闻爬虫系统
基于 Scrapy 爬虫对电子元器件的详细信息的抓取以及各大新闻网站的新闻信息的
抓取,通过对目标网站的分析,使用内置 Xpath、Css 对网页内容结构化的提取,其中也
包括对从动态网页的的分析,对网页中特殊字段使用了正则表达式进行采集,在数据清
洗的过程中也使用了正则表达式和一些字符串内置函数对数据进行处理,存入数据库中,
其中使用了自己自建的 IP 代理池,大部分都是从网上抓取过来的,但是,不是很稳定。
垂直搜索引擎系统(Django+Elasticsearch+Scrapy-Redis)
基于 Django 的垂直搜索引擎,利用 Scrapy 结合 Redis 实现分布式的数据抓取,抓
取了部分网站的数据,上传至 Elasticsearch,利用 Elasticsearch 搜索服务器搭建了
一个搜索引擎,主要通过 Django 与 Elasticsearch 交互,完成搜索功能,使用 Nginx
进行项目的部署。
豆瓣推广系统
主要调用了 Selenium 接口控制浏览器模拟人为操作。在豆瓣的各个小组内推广自己
的产品,其中包括豆瓣账号注册模块,手机号由第三方提供,使用云打码来破解验证码,
一个 IP 对应一个账号来防止被封;小组添加模块,每个账号可以指定添加任意一个或多
个小组;小组发帖模块,在自己所添加的小组,进行指定内容的发帖;小组顶贴模块,
在小组内,对指定标题进行顶贴,从而达到推广自己的产品。

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    1
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系聘用方端客服
联系聘用方端客服