某部委互联网舆情与大数据监测分析平台

基本信息

案例ID:243653

技术顾问:国服の梦想家 - 6年经验 - 中国移动通信集团河北有限公司

联系沟通

微信扫码,建群沟通

项目名称:某部委互联网舆情与大数据监测分析平台

所属行业:新闻媒体 - 新闻

->查看更多案例

案例介绍

项目规模:1150万
项目描述:建设面向部委的全网舆情监测系统,对新闻、论坛、微博、公众号等渠道进行7×24小时数据采集,清洗分析,生成热点发现、情感研判、传播溯源等报告,数据日采集量超8000万条,要求高可用与反反爬能力。
技术栈:
采集:Scrapy + Redis分布式 + Selenium/Puppeteer无头浏览器
消息队列:Kafka
数据处理:Spark Streaming(或Flink)+ Python Pandas
存储:Elasticsearch 集群 + MySQL(元数据)
分析:NLP情感分析模型 + 传播路径图计算
展示:Vue3 + ECharts 大屏
个人职责与成果:
作为数据架构师,设计分布式爬虫集群架构,实现IP代理池、Cookie池自动维护,支持JavaScript渲染,反爬对抗能力强,达到日均8000万+采集量。
主导内容去重与质量打分算法,将相似度哈希(SimHash)与BERT语义去重结合,入库有效数据占比提升至95%。
搭建Kafka+Spark Streaming实时清洗管道,对数据进行实体抽取、情感标签,延迟小于30秒。
构建舆情传播图谱,利用Neo4j图数据库计算关键传播节点,为溯源分析提供决策支持。
完成系统在国产X86服务器及麒麟系统上的适配部署,通过保密局相关规范测试,获部委内部科技创新二等奖。

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服