ID:275713

H

爬虫工程师

  • 公司信息:
  • 郑州塔博科技
  • 工作经验:
  • 2年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 可工作日远程
  • 所在区域:
  • 杭州
  • 滨江

技术能力

1,熟练掌握Python的基本语法,拥有良好的编码规范
2,熟练使用requests、xpath、bs4与css选择器,re正则表达式对网页抓取
3,熟练使用Scrapy爬虫框架
4,熟练使用Selenium自动化爬取
5,熟悉网页语言HTML,拥有一定反爬经验积累,理解并熟练掌握各种反爬技巧(UA,IP代理,模拟登录,动态页面,验证码等)
6,熟悉使用MySQL、Redis、MongoDB数据库
7,熟练使用Fiddler抓包工具和中间人攻击以及Airtest自动化测试框架的使用
8,了解多线程,多进程,Scrapy-redis分布式组件
9,了解js加密解密,js逆向

项目经验

医药信息获取

项目时间:
2021.10 – 2021.11

项目描述:
本项目抓取网站所有注册医生基本信息和所有医生名下问诊信息。

责任描述:
1、分析网站选择使用哪种技术,查看所取信息的层级,在简单使用requests请求 测试是否可行。
2、使用scrapy框架,用xpath,re正则表达式对页面提取数据,多层页面跳转对页面数据进行判断获取最终数据。
3、去重整理:拿到所有字段后对数据进行清洗,去重。
4、将清洗后的数据存入数据库。



爬取手机自媒体平台数据

项目时间:
2021.8 – 2021.9

项目描述:
爬取抖音、快手、小红书等app平台用户点赞数评论数转发数等信息

责任描述:
1、手机端的爬取不同于pc端,手机爬虫抓取使用fiddler抓包工具和手机模拟器来实现。
2、使用模拟器,来实现pc端模拟手机登录,使用fiddler或者mitmproxy进行app抓包,对取到的信息进行解析,得到传输的数据的api接口,对接收的数据进行分析。
3、将数据保存到数据库,对重复的字段对应的数据进行更新操作


新闻定时爬取

项目时间:
2021.4 – 2021.6

项目描述:
在指定多个媒体网站获取最近发布的新闻标题以及时间,将获取的标题进行对比,范围出现频率高的热词进行排序,分词。

责任描述:
1、爬虫模块的编写,使用requests进行爬取,多线程提高爬虫效率。
2、对爬虫进行维护,数据的去重,mysql储存。
3、定时调度更新数据。



招聘信息采集

项目时间:
2020.10 – 2021.1

项目描述:
对热门招聘网站进行信息采集,获取职位福利和薪资水平

责任描述:
1、使用requests请求获取网站网页,运用xpath和css获取网页数据
2、保持代码稳定运行,对于爬取过程中出现的问题要进行代码的不断优化等。
3、对获取到的数据进行数据库储存。

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系聘用方端客服
联系聘用方端客服