本作品是面向大数据分析场景开发的 B 站数据采集工具,基于 Python 语言实现,核心解决 B 站视频元数据批量采集、音视频资源下载及数据规整的需求。工具支持按视频 URL 列表、UP 主 ID、关键词等多维度采集,通过 DrissionPage 库突破动态网页渲染限制,抓取视频标题、播放量、弹幕数等结构化元数据;解析音视频流地址实现分块下载,集成 ffmpeg 自动合并音视频为标准化 MP4 文件。同时配置请求频率控制、请求头伪装等反爬策略,保障采集稳定性;新增数据去重、文件校验模块,输出可直接用于分析的结构化数据与视频文件。作为独立开发的核心开发者,我完成了从需求拆解、技术选型到代码实现、优化调试的全流程工作,工具已支撑 500 + 条 B 站视频数据的采集与处理,适配大数据预处理的实际场景,具备易用性与工程化落地能力。