基本信息

案例ID:195411

技术顾问:生而自由 爱而无畏 - 8年经验 - 中国证券监督管理委员会

联系沟通

微信扫码,建群沟通

项目名称:证监会网站数据爬取项目

所属行业:金融 - 股票

->查看更多案例

案例介绍

根据网站信息,按照信息栏划分为两部分:政策类和按主题划分类,按体裁文种类同主题类
执行主函数,会在对应目录生成该类主题所有的目录层级和doc文件,代码中是按照面向对象逻辑思想使用了ip代理池,捕获异常重复发送请求,获取所需数据。

第二种方案:还可以基于scrapy框架实现该功能,只需在setting文件中配置完成中间件,UA集,代理池,下载器等,完成单任务spider任务的实现,开启scrapy项目即可。

第三种方案:还可以实现高并发任务的方式实现,利用多线程任务爬取不同专题数据 + 协程任务爬取不同页面数据也可以实现高效率的数据爬取。

后续优化完成进行补充......

相似案例推荐

其他人才的相似案例推荐

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系聘用方端客服
联系聘用方端客服