- 语言与运行:Python、asyncio(异步采集)
- 动态渲染采集:Playwright(自动化浏览器渲染、页面元素等待、翻页与详情抓取)
- 爬虫工程化:Scrapy + scrapy-playwright(任务调度、请求队列、可扩展管道)
- 反爬与登录态处理:浏览器登录态复用(storage_state 会话保持)、请求头/UA配置、限速与低并发控制
- 数据落地:CSV 结构化输出(字段清洗、断点续写/追加写入)
载体标签(你可直接勾选/填写)
- Python爬虫
- Web自动化/浏览器爬虫
- 动态渲染采集
- Scrapy工程化采集
- 数据清洗与结构化存储(CSV/表格)
- 反爬处理/登录态维持
行业标签(按平台标签选最贴近的)
- 商业地产/地产数据
- 商业招商/商业运营
- 企业服务(ToB 数据采集)
- 数据服务/大数据分析(数据获取环节)
业务与功能介绍(可直接粘贴)
- 业务背景:对商业地产行业数据进行汇总分析,需要批量获取赢商大数据平台的项目库信息,形成可分析的数据集(项目维度字段齐全、可导入Excel/BI)。
- 核心功能:
- 项目列表翻页采集:按页获取项目入口链接,支持配置页数批量抓取
- 项目详情解析:进入详情页抽取关键字段并做字段名清洗与映射
- 采集稳定性:动态渲染等待、限速控制、低并发策略减少风控触发
- 数据落地:按统一字段写入 CSV,支持追加写入与断点续跑
项目实现(实现思路/流程)
- 方案设计:同时提供“Playwright直连脚本方案”和“Scrapy + Playwright工程化方案”,便于在小规模快速交付与长期稳定跑数之间切换
- 流程步骤:
- 复用登录态(首次人工登录导出会话,后续自动加载会话)
- 打开项目列表页 → 抓取当前页所有详情链接 → 逐条进入详情页
- 以“字段名/字段值”KV形式解析详情模块,提取并输出统一字段(如:标题、发布者、项目类型、商业面积、商业楼层、城市、地址等)
- 翻页循环,最终输出结构化 CSV 数据集(满足批量采集需求)