猿急送>

成都Python兼职程序员

ID：158495

飛

python爬虫工程师

公司信息：
成都新盛互联科技有限公司

工作经验：
2年

兼职日薪：
500元/8小时

兼职时间：
可工作日驻场（自由职业原因）

所在区域：
成都
双流

技术能力

1.熟连掌握爬虫框架Scrapy，常用模块urllib/ requests/ selenium，
2.熟连掌握网页源码解析工具： xpath/ re，等网页信息抽取技术以及
3.熟练使用Selenium + Chrome 进行动态加载
4.熟练使用抓包工具 Fiddler、Charles 进行API抓取
5.掌握分布式框架Scrapy-Redis开发；
6.掌握多进程，多线程，协程开发；
7.熟练掌握Python基础/ Python标准库/ 第三方库，具有良好的代码编写规范
8.熟悉掌握Python 面向对象编程，高阶函数/ 生成器/ 装饰器/ 单例模式的使用；
9.熟悉网络编程，熟悉HTTP/TCP/UDP协议，了解SSH协议；
10.掌握Linux操作系统开发和服务器部署，了解Linux常用命令；
11.熟练使用Mysql数据库，熟悉非关系型mongodb以及Sql语句的使用；
12.熟悉前端开发语言 HTML、CSS、JS、jQuery、Bootstrap 框架
13.熟悉 web开发框架Django、Falsk、缓存技术redis
14.熟悉docker容器的使用
15.了解 numpy/ pandas/ matplotlib 库对数据进行运算分析及可视化；

项目经验

项目一
项目名称：裁判文书网的爬取
项目周期：2018.11 - 2019.03
开发环境：Windows + python + pycharm
项目描述：
中国裁判文书网是目前全球最大的裁判文书网，网站上公示了全国历年的司法数据。我这个项目主要抓取文书的Id法院的名称已经裁决信息来为公司提供数据源，通过爬取的数据来了解一些公司的情况，分析这些违反了法规的公司，把这些数据对接给公司的其他部门
技术要点：
1. 通过破解JS得到携带的参数进行下次数据包验证得到正确初始网页
2. 运用IP代理池，防止访问次数过多而封禁IP的问题，提高抓取效率
3. 通过过取到的vjxl5去加载一个js得到vj5x
4. 携带vj5x访问返回文书ID的数据包获取文书ID
5. 通过文书ID访问数据页面获取数据
6. 使用xpath解析并把数据存入mongdb

项目二
项目名称：企业信息的爬取
开发周期：2018.03 – 2018.07
开发环境：Windows + python + pycharm
项目描述：
该项目主要是对企业信息进行抓取(主要针对企业的基本信息，法人代表，主要成员，商品信息、联系电话)进行抓取，根据公司业务需求提供企业的信息对接公司的平台事业部，以此来扩大公司的业务，为公司提供有效的收益
技术要点：
1.主要负责项目信息的爬取
2.使用redis进行搭建账号池以及用户池
3. 对抓取下来的数据的cookie存入cookie池
4. 对于比较难的缺口验证码进行接口调用进行图像识别
5. 使用xpath，re 等模块对数据进行处理
6. 最后根据需求将数据保存在 mongodb 数据库中

项目三
项目名称：专利信息的爬取
开发周期：2017.12 - 2018.10
开发环境：Windows + python + pycharm + scrapy
项目描述：
该项目主要针对专利网站的一些专利信息的抓取，对抓取的信息进行一些数据的清洗，把清洗过后有用的数据提供给公司后台开发人员，对他们的开发项目做一个数据支撑，用来保证他们开发项目的正常实施，为公司带来一定的利益。

技术要点：
1. 使用scrapy 框架进行信息抓取
2. 使用redis搭建cookie池并从队列中获取
3. 利用redis 的高并发和 I/O 读写来实现高速下载
4. 通过管道将解析好得数据保存到数据库中
5. 通过greapy实现分布式后台可视化管理
项目四
项目名称：电商平台数据抓取
开发周期：2017.07– 2017.11
开发环境：linux + python + pycharm
项目描述：
随着科技互联网的发展，人们生活水平的提高，现在人们的购物方式不断改变。近几年往后是非常火的，在家就能买东西，还有送货上门，和货到付款等福利，而且价格一般也比实体店便宜很多。该项目的目的是利用这些商品的走势，进行商品的性价比分析。该项目为公司电商项目，爬取京东，淘宝，唯品会等热门网购网站，获取商品信息、价格、销量等基本请求信息，通过网站的数据能够客观反映市场需求以及变化。

技术要点：
1. 使用Fiddler 抓包工具抓取到接口信息
2. 运用IP代理池，防止访问次数过多而封禁IP的问题，提高抓取效率
3. 通过在中间件中添加代理，在 settings 中设置 User-Agent 等方法解决反爬虫
4. 使用re，xpath，BeautifulSoup 等模块对数据进行处理
5. 将解析好的数据存放在 mysql 数据库当中