越过眼睛的案例列表

bilibili爬虫

文化娱乐-视频 越过眼睛

1.数据采集阶段-b站发现爬虫采集会封IP 使用代理IP 用时大概一周获取1500万数据 2.数据库sqlite3 3.启动run(URL+[i for i in range(1,1997*10000)]) 开启延迟避免封IP,判断code!=0 获取aid(视频编号),view(播放量),danmaku(弹幕数),reply(评论数),favorite(收藏数),coin (硬币数),share(分享数),保存本地,报错保存logging 4.Pandas+sqlite3+matplotlib 分析数据关系,aid与播放量,收藏与硬币数,查询播放 量前10,查询收藏前10...

bilibili爬虫
bilibili爬虫

微博爬虫

社交-兴趣格调 越过眼睛

1、Scrapy+redis+mongodb+selenium等(一天大概1300万条数据) 2、下载中间件会从Cookie池和User-Agent池中随机抽取一个加入到spider中 3、start_requests 中根据用户ID启动四个Request,同时对个人信息、微博、 关注和粉丝进行爬取 4、将新爬下来的关注和粉丝ID加入到待爬队列(去重)...

微博爬虫
微博爬虫
------ 加载完毕 ------
联系聘用方端客服