抖音数据采集

人工智能-其他 一诺

1: 抖音app、抖音网页数据采集: 独立负责整个抖音所有站点的开发和维护工作,日采集数据量上亿条。采集内容主要分为抖音电商模块、抖音视频模块、抖音直播和抖音本地生活模块。实时性要求较高 1: 解决了抖音pc端的参数X-Bogus、_signature,以及msToken、ttwid等问题 2: 解决了抖音app的算法x-gorgon、x-khronos、x-argus、x-ladon,以及封设备id的问题 3:解决了抖音的滑块问题 4: 由于实时性较高,一些接口无法补采。爬虫出问题后及时响应解决爬虫稳定,保证数据源的稳定...

抖音数据采集
抖音数据采集

淘宝、京东等电商网站采集

人工智能-其他 一诺

一、目标网站: 天猫,京东等电商。 使用资源: 阿里云服务器,拨号VPS代理、讯代理, redis,kafka,spark,hive,hbase等 … 开发过程: 设计爬取策略爬取商品品类对应的全部url,商品价格、和商品评论,促销信息等。 利用scrapy-redis开发分布式采集程序 评论图片存入存入阿里云oss上。 分布式爬虫集群部署利用fabric部署在阿里云服务器。 结果利用redis做缓存数据库,利用spark开发流式处理流程,数据通过kafka存入hive和hbase。 解决淘宝app端的算法并实现app端的采集...

淘宝、京东等电商网站采集
淘宝、京东等电商网站采集

娱乐类app采集

企业服务-数据服务 一诺

网易云音乐app、酷狗音乐app、陌陌app采集、瑞幸咖啡app等app破解和采集: 独立负责公司娱乐相关项目采集。同时维护爬虫比较多,日常出现问题需要快速解决。按时完成数据交付。 1:网易云音乐app的请求和响应在so层做了加密,同时so无法静态分析。利用frida从内存中dump so,并利用工具对dump的so做修复。通过ida和frida联合分析调试,进而逆向出算法 2:破解瑞幸咖啡app的加密参数时候需要对app脱壳,但分析出加密参数是白盒aes做的加密,无法动态分析出aes的key,则使用unidbg调用so的加密参数,并搭建接口供爬虫调用 3:陌陌采集需要注册账号,但是账...

娱乐类app采集
娱乐类app采集
------ 加载完毕 ------
联系聘用方端客服