聚数通

猿急送>武汉兼职程序员>Yee>

案例列表

基本信息

案例ID：240313

技术顾问：Yee - 1年经验 - 阿里云

联系沟通

微信扫码，建群沟通

项目名称：聚数通

所属行业：企业服务 - 行业细分软件

->查看更多案例

案例介绍

聚数通 · 多源数据采集与监控平台
项目简介：该平台面向业务部门的数据需求，实现对多个外部网站及开放数据源的自动化采集、清洗、入库与可视化监控，为运营决策和数据分析提供稳定的数据供给能力。
职责描述：
负责平台爬虫引擎及后端服务的设计与开发，主要工作包括：

基于 Scrapy 框架搭建分布式爬虫系统，通过 Scrapy-Redis 实现任务队列的分布式调度，支持对多个目标站点的并发采集，日均采集数据量达数十万条。
针对动态渲染页面（JavaScript 加载）引入 Selenium / Playwright 进行页面模拟与数据抓取，结合无头浏览器池化管理提升采集效率。
设计并实现反反爬策略模块，包括 IP 代理池轮换、请求频率控制、User-Agent 随机化、Cookie 管理及验证码识别接入等，保障采集任务的稳定运行。
开发数据清洗与标准化流水线，利用 Python 对采集的原始数据进行去重、字段提取、格式转换，清洗后写入 MySQL，并通过定时任务实现增量更新。
基于 Spring Boot 开发后端管理服务，提供爬虫任务的创建、调度、启停等接口，配合前端实现任务运行状态监控、异常告警及采集数据的可视化展示。

技术栈： Python / Scrapy / Scrapy-Redis / Selenium / Java / Spring Boot / MySQL / Redis / Docker