Python 核心变量、循环、函数、类、多线程 / 多进程、协程、装饰器、异常处理
网络基础HTTP/HTTPS 协议、请求头、Cookie、Session、状态码、接口请求流程
前端基础HTML 节点、CSS 选择器、XPath、JS 基础、DOM 结构
静态爬取requests、urllib、parsel、pyquery、lxml
动态 JS 爬取Selenium、Playwright、DrissionPage、Pyppeteer
解析提取XPath、CSS 选择器、正则表达式 re
数据存储文件:txt/csv/excel数据库:MySQL
使用requests+XPath/CSS完成资讯、商品、文章类静态网页批量爬取,自动解析标题、内容、时间、作者、链接等字段,实现数据清洗、去重,批量存入 CSV/MySQL。
针对抖音、B 站两大短视频平台,实现输入博主主页链接,全自动批量爬取该账号下所有作品,包含视频标题、发布时间、播放量、点赞、收藏、评论、视频封面、视频直链、文案话题等全维度数据,支持批量下载视频与封面图,完成数据清洗入库,可用于内容分析、舆情统计、短视频素材整理等场景。 技术栈
针对抖音、B站两大平台,开发多账号、多博主并行采集系统,支持批量导入博主主页链接(可同时导入50+账号),全自动爬取所有博主的全部公开视频及核心数据,涵盖视频基础信息、互动数据、文案标签、无水印视频资源等,完成数据清洗、去重、结构化整理,生成可视化统计报表,用于博主账号分析、竞品