🔮 AI 智能提取,用嘴爬数据
不用 F12、不用 XPath。输入 "提取所有商品名、价格、评分",AI 自动识别页面结构,生成 CSS 选择器并返回结构化 JSON。DeepSeek V4 / GPT-4o / 本地 Ollama 三种引擎自由切换,数据安全可控。
🕷️ 双引擎爬虫,动静态通杀
aiohttp 异步引擎用于普通页面高并发采集,Playwright 无头浏览器应对 JS 动态渲染页面。内置 Stealth 反反爬方案,隐藏 webdriver 指纹、模拟人类鼠标移动和滚动行为,对抗验证码和风控系统。
📊 上传即分析,告别 SQL
拖拽 CSV / Excel / JSON 文件,秒出数据概览:总行数、字段类型、缺失分布。相关性子图、KMeans 聚类图、情感分析、关键词提取、词频统计,全部可视化呈现,无需写一行代码。
⚡ CLI + Web UI + API 三位一体
datapulse crawl url 一行命令完成采集;Vue.js 3 + Element Plus 构建的管理面板适合日常操作;RESTful API 可直接嵌入你的 Python / Node.js 项目,pip install datapulse 即装即用。
📄 一键生成 HTML 分析报告
选中数据集 → 点击"Generate Report",自动产出包含数据概览、字段统计、相关性矩阵、洞察建议的完整 HTML 报告,可直接分享或导出下载。
🔌 WebSocket 实时进度推送
采集任务启动后,前端进度条实时更新,成功数、失败数、耗时一目了然,不再对着一动不动等待。采集完成后自动生成 CSV 数据集,前端列表即时可见。
🧩 可插拔中间件链
UA 轮换、延迟代理、请求重试、URL 去重、数据清洗 — 全部以中间件形式按需插拔。自定义中间件只需继承 BaseMiddleware,注册即生效。