ID:158495

python爬虫工程师

  • 公司信息:
  • 成都新盛互联科技有限公司
  • 工作经验:
  • 2年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 可工作日驻场(自由职业原因)
  • 所在区域:
  • 成都
  • 双流

技术能力

1.熟连掌握爬虫框架Scrapy,常用模块urllib/ requests/ selenium,
2.熟连掌握网页源码解析工具: xpath/ re,等网页信息抽取技术以及
3.熟练使用Selenium + Chrome 进行动态加载
4.熟练使用抓包工具 Fiddler、Charles 进行API抓取
5.掌握分布式框架Scrapy-Redis开发;
6.掌握多进程,多线程,协程开发;
7.熟练掌握Python基础/ Python标准库/ 第三方库,具有良好的代码编写规范
8.熟悉掌握Python 面向对象编程,高阶函数/ 生成器/ 装饰器/ 单例模式的使用;
9.熟悉网络编程,熟悉HTTP/TCP/UDP协议,了解SSH协议;
10.掌握Linux操作系统开发和服务器部署,了解Linux常用命令;
11.熟练使用Mysql数据库,熟悉非关系型mongodb以及Sql语句的使用;
12.熟悉前端开发语言 HTML、CSS、JS、jQuery、Bootstrap 框架
13.熟悉 web开发框架Django、Falsk、缓存技术redis
14.熟悉docker容器的使用
15.了解 numpy/ pandas/ matplotlib 库对数据进行运算分析及可视化;

项目经验

项目一
项目名称:裁判文书网的爬取
项目周期:2018.11 - 2019.03
开发环境:Windows + python + pycharm
项目描述:
中国裁判文书网是目前全球最大的裁判文书网,网站上公示了全国历年的司法数据。我这个项目主要抓取文书的Id法院的名称已经裁决信息来为公司提供数据源,通过爬取的数据来了解一些公司的情况,分析这些违反了法规的公司,把这些数据对接给公司的其他部门
技术要点:
1. 通过破解JS得到携带的参数进行下次数据包验证得到正确初始网页
2. 运用IP代理池,防止访问次数过多而封禁IP的问题,提高抓取效率
3. 通过过取到的vjxl5去加载一个js得到vj5x
4. 携带vj5x访问返回文书ID的数据包获取文书ID
5. 通过文书ID访问数据页面获取数据
6. 使用xpath解析并把数据存入mongdb

项目二
项目名称:企业信息的爬取
开发周期:2018.03 – 2018.07
开发环境:Windows + python + pycharm
项目描述:
该项目主要是对企业信息进行抓取(主要针对企业的基本信息,法人代表,主要成员,商品信息、联系 电话)进行抓取,根据公司业务需求提供企业的信息对接公司的平台事业部,以此来扩大公司的业务,为公司提供有效的收益
技术要点:
1.主要负责项目信息的爬取
2.使用redis进行搭建账号池以及用户池
3. 对抓取下来的数据的cookie存入cookie池
4. 对于比较难的缺口验证码进行接口调用进行图像识别
5. 使用xpath,re 等模块对数据进行处理
6. 最后根据需求将数据保存在 mongodb 数据库中

项目三
项目名称:专利信息的爬取
开发周期:2017.12 - 2018.10
开发环境:Windows + python + pycharm + scrapy
项目描述:
该项目主要针对专利网站的一些专利信息的抓取,对抓取的信息进行一些数据的清洗,把清洗过后有用的数据提供给公司后台开发人员,对他们的开发项目做一个数据支撑,用来保证他们开发项目的正常实施,为公司带来一定的利益。

技术要点:
1. 使用scrapy 框架进行信息抓取
2. 使用redis搭建cookie池并从队列中获取
3. 利用redis 的高并发和 I/O 读写来实现高速下载
4. 通过管道将解析好得数据保存到数据库中
5. 通过greapy实现分布式后台可视化管理
项目四
项目名称:电商平台数据抓取
开发周期:2017.07– 2017.11
开发环境:linux + python + pycharm
项目描述:
随着科技互联网的发展,人们生活水平的提高,现在人们的购物方式不断改变。近几年往后是非常火的,在家就能买东西,还有送货上门,和货到付款等福利,而且价格一般也比实体店便宜很多。该项目的目的是利用这些商品的走势,进行商品的性价比分析。该项目为公司电商项目,爬取京东,淘宝,唯品会等热门网购网站,获取商品信息、价格、销量等基本请求信息,通过网站的数据能够客观反映市场需求以及变化。


技术要点:
1. 使用Fiddler 抓包工具抓取到接口信息
2. 运用IP代理池,防止访问次数过多而封禁IP的问题,提高抓取效率
3. 通过在中间件中添加代理,在 settings 中设置 User-Agent 等方法解决反爬虫
4. 使用re,xpath,BeautifulSoup 等模块对数据进行处理
5. 将解析好的数据存放在 mysql 数据库当中

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    1
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系聘用方端客服
联系聘用方端客服