能够爬取的一下资源
1. 静态网页爬取
◦ 场景:新闻网站、博客文章
◦ 技术:requests + BeautifulSoup
◦ 难点:解析 HTML 结构,处理编码问题
2. 动态渲染网页(JavaScript 加载)
◦ 场景:电商商品详情页、社交媒体动态内容
◦ 技术:Selenium / Playwright / Puppeteer
◦ 难点:等待异步加载、模拟点击翻页
3. 单页应用(SPA)
◦ 场景:现代 Web 应用(如 React/Vue 构建)
◦ 技术:直接调用隐藏 API(通过浏览器开发者工具分析)
◦ 难点:解析 API 参数(如加密 Token)
4. 公开数据抓取
◦ 场景:天气预报、政府公开数据集
◦ 工具:Scrapy 框架(高效批量爬取)
5. 登录认证后数据
◦ 场景:用户个人账户订单记录
◦ 技术:Session 保持、Cookie 管理
◦ 安全风险:避免存储用户敏感信息
6. 验证码拦截
◦ 场景:登录或高频访问时的验证码
◦ 解决方案:OCR 识别(如 Tesseract)或第三方打码平台