项目规模:1150万
项目描述:建设面向部委的全网舆情监测系统,对新闻、论坛、微博、公众号等渠道进行7×24小时数据采集,清洗分析,生成热点发现、情感研判、传播溯源等报告,数据日采集量超8000万条,要求高可用与反反爬能力。
技术栈:
采集:Scrapy + Redis分布式 + Selenium/Puppeteer无头浏览器
消息队列:Kafka
数据处理:Spark Streaming(或Flink)+ Python Pandas
存储:Elasticsearch 集群 + MySQL(元数据)
分析:NLP情感分析模型 + 传播路径图计算
展示:Vue3 + ECharts 大屏
个人职责与成果:
作为数据架构师,设计分布式爬虫集群架构,实现IP代理池、Cookie池自动维护,支持JavaScript渲染,反爬对抗能力强,达到日均8000万+采集量。
主导内容去重与质量打分算法,将相似度哈希(SimHash)与BERT语义去重结合,入库有效数据占比提升至95%。
搭建Kafka+Spark Streaming实时清洗管道,对数据进行实体抽取、情感标签,延迟小于30秒。
构建舆情传播图谱,利用Neo4j图数据库计算关键传播节点,为溯源分析提供决策支持。
完成系统在国产X86服务器及麒麟系统上的适配部署,通过保密局相关规范测试,获部委内部科技创新二等奖。