会爬虫,包括requests,Beautifulsoup,selenium,以及html文档标签使用,线程池,ip代理,账号登录,滑块验证等,还有js逆向的一些规则,爬过抖音,网易云,B站,博客园等网站,比较擅长爬标题与文字
近期使用Python编写爬虫,抓取抖音视频标题与评论、B站视频信息、博客园文章(标题/作者/概要)及房天下等网站数据。通过Requests和Selenium突破动态加载限制,用正则与BeautifulSoup解析内容,清洗后存入MySQL数据库,完成多平台信息聚合。
在抖音爬虫中,我逆向分析API请求构造参数,抓取视频标题与评论JSON数据,用正则提取核心字段,并实现热评排序存储。
在B站爬虫中,我通过分析XHR接口构造带签名参数的请求,抓取视频基础信息与弹幕数据,解析嵌套JSON结构后清洗存储。