猿急送>

其他其它兼职程序员

ID：297313

K-ing

爬虫工程师

公司信息：
海博为峰软件技术股份有限公司

工作经验：
3年

兼职日薪：
700元/8小时

兼职时间：
下班后
周六
周日
可工作日远程

所在区域：
其他
全区

技术能力

1、熟练掌握 Python 语言，基础语法，函数，面向对象以及一些标准库的使用
2 、熟练掌握 Linux 常用指令，对shell有一定经验
3 、熟练掌握 sql 语句，Redis，MongoDB 等数据库及其相关操作
4 、熟悉 requests, lxml, beautifulsoup, re,xpath，正则表达式等常见爬虫模块，熟悉 scrapy 和scrapy-redis
爬虫框架，了解多线程爬虫，精通验证码，图片识别等多种反爬方法
5 、熟练使用 excel，ableau，powerbi，finebi 常用数据分析软件
6、熟练掌握数据挖掘及其相关过程
7、熟悉常用机器学习算法，k-means，KNN，决策树，回归算法等
8、熟练掌握 numpy，pandas，matplotlib，scikit- learn，jieba，等数据分析科学计算包
9、掌握 Selenium 自动化测试工具和 PhantomJS 以及有界面浏览器的搭配使用
10、了解前端 html,css,javascript，http底层协议

项目经验

2022.03 -至今上海博为峰软件技术股份有限公司爬虫及数据分析技术老师
1. 负责对学生学习进行技术支持，编写辅导大纲
2. 负责精通数据分析教学的课程，对学生excel、tableau、powerbi、finebi等可视化工具进行教学辅导
3. 负责精通Python课程辅导，对学生Python基础、高阶爬虫和pandas等进行教学辅导

项目名称：爬取西餐和中餐数据进行对比分析
项目描述：根据客户对两种不同风格 (西餐和中餐) 的评价、人流数量等信息进行数据分析查看两
种不同风格的成本和营业金额情况，查看最后的盈利额等信息。
项目责任：
1. 分析网站结构，根据响应的内容，创建Scrapy 项目，在item里面，编写要抓取的代表目标的字段，如：
地理位置，中餐厅或西餐厅的相关数据等。
2. 在 middlewares 利用 selenium 模拟浏览器发送网页请求，根据 item 里面要抓取的目标进行分页爬取。
3. 在 spiders 下面的 pares 方法解析爬取信息，过滤有用信息。
4. 在settings里面设置要存的数据，过滤数据后放到MongoDB数据库中。
5. 利用 pandas 和 numpy 对数据经清洗，数据类型的转换、缺失值的处理、异常值的处理。
6. 用jieba分词对评价信息进行拆分提取关键词用 wordcloud 生成词云，可以分析用户对消费体验的评价

项目名称：户外运动用品的爬取
项目描述：互联网关于户外运动的企业相关信息，以及凡是其他网站中户外运动的相关信息爬取，对抓取的信息进行
数据清洗，存储到数据库中供其他人使用。
项目责任：
1.用 scrapy-redis 对数据量进行分布式爬取；
2.分析网站的结构，结合反爬策略，利用机器学习识别验证码，进行反爬措施，进行网页中元素定位；
3.将爬取的信息存储到数据库 redis 中去重，并用 pandas 模块简单清洗；
4.将清洗的数据存到数据库中。