基本信息

案例ID:228827

技术顾问:(°ー°〃) - 3年经验 - 乐天工作室

联系沟通

微信扫码,建群沟通

项目名称:异步分布式爬虫开发

所属行业:企业服务 - 数据服务

->查看更多案例

案例介绍

简介:
开发过完整的异步分布式爬虫系统,不是使用scrapy-Redis,这个爬虫系统具备更贴合公司业务情况,使用简捷通用,扩展性强,具备全自动化的功能,且新增同类爬取方式的项目可直接复用大部分代码

具体功能:
1、爬虫使用的异步的开发方式开发的,提高爬虫效率
2、爬虫使用了分布式的开发方式,且新增很多有用的新特性,不单只可以多台电脑运行提高效率,还可以单台电脑多终端运行提高效率,且系统设计深度灵活,可以很灵活方便的只提取爬虫系统某个项目,某个店铺的数据,急需某些数据时可以很快速提供给公司
3、爬虫系统具备全自动化的功能,例如全自动化解决登录出现的滑块验证码,短信验证码等,还可以全自动化识别爬取时段,就是某些数据可能早上10点前就不需要了,或者某些数据是在下午3点才更新的,下午3点的数据才是最新,才是有效数据,那么爬取的时候会自动识别当天时间,不是在这个时间就不去执行爬取这个项目,当然如果突然需要爬取了,也可以很简单快捷就可以立刻爬取,换个运行命令就可以解决问题了,就是第二点提到的功能
4、新增同类爬取方式的项目,就是新增可以套用大部分底层代码的项目,爬取后数据上传至对应的线上文档,预计40多个
5、自动化去重加灵活爬取,根据设定的时间参数,可以灵活得爬取项目,例如默认是两小时内同个项目或者同个店铺就不再爬取,然后也可以设定为当天爬取一次就不再爬取,再或者可以设定为一天三次,早上八点爬取一次,下午两点一次,下午5点一次,主要看项目数据的需求情况,
6、不同的爬取方式集成于一个框架,例如设计的爬虫系统具备两种爬取方式,通过某个方式设定,同类爬取方式的项目就可以复用大部分代码,不用重新编写,直接使用即可,只需负责编写数据提取的上传的操作即可
7、具备爬虫异常监控系统,爬虫出现异常会自动化转发异常到群里,且自动记录报错的原因和详细请求过程

相似案例推荐

其他人才的相似案例推荐

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服