基本信息

案例ID:240313

技术顾问:Yee - 1年经验 - 阿里云

联系沟通

微信扫码,建群沟通

项目名称:聚数通

所属行业:企业服务 - 行业细分软件

->查看更多案例

案例介绍

聚数通 · 多源数据采集与监控平台
项目简介: 该平台面向业务部门的数据需求,实现对多个外部网站及开放数据源的自动化采集、清洗、入库与可视化监控,为运营决策和数据分析提供稳定的数据供给能力。
职责描述:
负责平台爬虫引擎及后端服务的设计与开发,主要工作包括:

基于 Scrapy 框架搭建分布式爬虫系统,通过 Scrapy-Redis 实现任务队列的分布式调度,支持对多个目标站点的并发采集,日均采集数据量达数十万条。
针对动态渲染页面(JavaScript 加载)引入 Selenium / Playwright 进行页面模拟与数据抓取,结合无头浏览器池化管理提升采集效率。
设计并实现反反爬策略模块,包括 IP 代理池轮换、请求频率控制、User-Agent 随机化、Cookie 管理及验证码识别接入等,保障采集任务的稳定运行。
开发数据清洗与标准化流水线,利用 Python 对采集的原始数据进行去重、字段提取、格式转换,清洗后写入 MySQL,并通过定时任务实现增量更新。
基于 Spring Boot 开发后端管理服务,提供爬虫任务的创建、调度、启停等接口,配合前端实现任务运行状态监控、异常告警及采集数据的可视化展示。

技术栈: Python / Scrapy / Scrapy-Redis / Selenium / Java / Spring Boot / MySQL / Redis / Docker

相似案例推荐

其他人才的相似案例推荐

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服