基本信息

案例ID:144032

技术顾问:Lee - 2年经验 - 北京**科技发展有限公司

联系沟通

微信扫码,建群沟通

项目名称:汽车之家论坛爬虫

所属行业:新闻媒体 - 新闻

->查看更多案例

案例介绍

需求汽车之家论坛数据,主要是问答方面的数据,经过一番研究,发现网站的反爬手段是现在较为常见的字体反爬。

目前越来越多的网站开始使用字体反爬的手段来限制spider对网站的抓取。

做项目之前 也看了网上很多字体反爬的案列,但是基本都是针对一个单独页面,换一个页面就会出现偏差,那就没意义了。

字体加密反爬也就是自定义字体反爬,通过调用自定义的ttf文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容!

字体文件分为两种,一种是网站的标准字体库,也就是文本中出现这几个字的话,就会自动被编码,目前标准库中的字体是50个。第二种是网站每个页面中加载出来的ttf文件,从源码中获取ttf文件,再根据ttf文件中的文字图形位置再爬虫代码中做一个映射,然后使用程序动态获取到采集的每一篇文章,使用fonttools类工具(该工具是python专门操作字体的库,pip3 install fonttools可以直接下载)来循环对比本地之前下载的标本中的字体信息,比较文本字体和标准字体坐标差,最后再做对应,如此一来,反爬就轻松被破了。

相似案例推荐

其他人才的相似案例推荐

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系聘用方端客服
联系聘用方端客服