基本信息

案例ID:185359

技术顾问:N.S.D. - 4年经验 - 北京慧聪叁陆零科技有限公司

联系沟通

微信扫码,建群沟通

项目名称:中国供应商

所属行业:电子商务 - B2B

->查看更多案例

案例介绍

项目描述:

抓取网站中的企业信息,并将企业信息的企业状态与天眼查的企业状态同步剔除掉企业状态非正常的企业,然后入Hive资源库中进行下一步的清洗

技术描述:

使用Requests对url进行请求
设置ip代理
设置随机UserAgent
字体反扒
利用Time对爬取间隔设置间断

责任描述:

使用requests对目标网站进行访问并设置ip代理
设置随机UserAgen,对网站进行判断,状态码不等于200或者网站出现错误提示的话对ip和UserAgent进行变更
将加密的字字符串通过正则清洗出来并存储ttf格式,然后将ttf转换成xml格式,接着获取加密字符的动态变化值最后将结果通过字典传入并循环判断替换
用Xpath提取出所要抓取的信息,最后存储为csv格式
将抓取到的企业信息在天眼查进行抓取企业状态以及天眼查同步企业的的联系信息存储为csv格式
将最后的企业信息入到Hive资源库进行下一步清洗

相似案例推荐

其他人才的相似案例推荐

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系聘用方端客服
联系聘用方端客服