ID:278916

爱你依旧866

爬虫工程师

  • 公司信息:
  • 苏州新傲技术有限公司
  • 工作经验:
  • 1年
  • 兼职日薪:
  • 600元/8小时
  • 兼职时间:
  • 周六
  • 周日
  • 所在区域:
  • 深圳
  • 龙岗

技术能力

1、熟练掌握Python语言,可以熟练使用一些常用的第三方库;
2、1年以上爬虫相关技术开发经验,熟悉爬虫抓取原理,有一定的页面解析能力;
3、熟悉Scrapy框架,懂得Scrapy框架的工作原理,可以使用Scrapy框架进行数据爬取;
4、熟悉常见反爬机制,具备破解常见反爬机制经验,大部分的反爬都可以应对;
5、熟悉HTML、AJAX、HTTP协议等;
6、熟悉常见数据库的使用,如Mysql、Redis等;
7、实践过代理池、cookie池搭建和使用以及账号登录认证;
8、可以熟练使用Xpath、Jsonpath、re等数据提取模块进行数据的提取;

项目经验

1.
2021年3月1日至3月5日——有道翻译数据抓取
项目简介:自动将输入的中文翻译成英文
开发环境:Windows11(64位)、PyCharm2019、Python3.8
关键技术:js加密,反爬
主要负责:
1.
分析目标网站的反爬手段,确定加密方法
2.
根据网站的反爬机制,在请求头中添加User-Agent和cookie等字段。在网页源码中得到不同的
中文翻译后字段内容的变化从而得到js加密的映射字典,以此来破解js加密。设置输入的入口以
及输入的数据类型,并加入容错机制用以提醒用户输入的格式要求。
3.
五天的时间单独破解出js加密,并且爬虫的各个模块能够正常稳定地运行。
2.
2021年4月13日至4月16日——起点网月票数据抓取
项目简介:破解字体加密获得月票
开发环境:Windows11(64位)、PyCharm2019、Python3.8
关键技术:XPath、fontTools、re
主要负责:
1.
分析目标网站的反爬手段以及数据存放的位置
2.
首先分析出月票数据的存放结点利用re和XPath提取出月票数据,
使用re获得字体加密的文件然
后下载加密文件,
使用fontTools读取映射关系表,
然后使用FontCreator工具分析出加密的映射
关系,根据得到的映射关系创建出新的字典。根据映射关系可以得到具体的月票数据,将其保存到
Excel表格中。3.
三天的时间单独破解出起点网上的字体加密,爬虫可以稳定准确的获取月票数据。
3.
2022年3月13日至3月18日——Selenium模拟登陆
项目简介:破解滑块验证实现自动登录
开发环境:Windows11(64位)、PyCharm2019、Python3.8
关键技术:selenium、XPath、OpenCV、Numpy
主要负责:
进入目标网站的登录界面,利用Xpath和click方法实现自动点击进入滑块界面,然后获取到滑块
图片和背景图片并保存。
保存以后使用OpenCV读取两张图片并加以灰度处理,
然后使用OpenCV
的匹配算法匹配两个灰度处理过后的图片的相似之处,得到坐标,然后使用action中的方法拖动
滑块到指定位置,直至成功
4.
2022年3月22日至3月23日——抓取移动端微博热搜数据
项目简介:获取到移动端的微博热搜数据
开发环境:Windows11(64位)、PyCharm2019、Python3.8
关键技术:Requests、fiddler、Xpath、re
主要负责:
首先使用模拟器下载微博,然后在Fiddler中找到需要爬取的数据,回到PyCharm中使用Requests
和XPath以及re获取到需要的数据然后将这些数据保存到Excel表格中
5.
2022年4月1日至4月5日——基于Scrapy框架实现对豆瓣热播电影数据的抓取
项目简介:使用Scrapy框架对
开发环境:Windows11(64位)、PyCharm2019、Python3.8
关键技术:Scrapy、MySQL、Xpath
主要负责:
使用Scrapy框架对豆瓣网上正在热播的电影数据的抓取,首先分析出豆瓣网的反爬机制,设置请求头
中的字段值,然后使用Xpath获取到想要的数据,最后将数据保存到MySQL数据库中

案例展示

  • 使用selenium解决滑块验证

    使用selenium解决滑块验证

    进入目标网站的登录界面,利用Xpath和click方法实现自动点击进入滑块界面,然后获取到滑块 图片和背景图片并保存。 保存以后使用OpenCV读取两张图片并加以灰度处理, 然后使用OpenCV 的匹配算法匹配两个灰度处理过后的图片的相似之处,得到坐标,然后使用actio

  • 字体反爬

    字体反爬

    首先分析出月票数据的存放结点利用re和XPath提取出月票数据, 使用re获得字体加密的文件然 后下载加密文件, 使用fontTools读取映射关系表, 然后使用FontCreator工具分析出加密的映射 关系,根据得到的映射关系创建出新的字典。根据映射关系可以得到具体

查看案例列表(含更多 0 个案例)

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系聘用方端客服
联系聘用方端客服