针对抖音、B站两大平台,开发多账号、多博主并行采集系统,支持批量导入博主主页链接(可同时导入50+账号),全自动爬取所有博主的全部公开视频及核心数据,涵盖视频基础信息、互动数据、文案标签、无水印视频资源等,完成数据清洗、去重、结构化整理,生成可视化统计报表,用于博主账号分析、竞品调研、内容矩阵搭建等商业场景,替代人工采集,大幅提升工作效率。
技术栈
Python、aiohttp(异步协程)、Playwright(动态渲染)、Fiddler/Charles(抓包)、JS逆向(抖音x-bogus、B站csrf-token)、Redis(任务调度+去重)、MySQL+MongoDB(双重存储)、Pandas(数据清洗)、Matplotlib(数据可视化)、代理IP池、UA池、Linux定时部署