项目概述
本项目构建了一个面向酒店行业的多维度情感分析系统,通过创新性地融合深度学习技术与爬虫技术,实现了对海量酒店评论的智能分类与分析。系统能够自动采集全网酒店评论数据,并进行细粒度的情感倾向分析,为酒店运营提供数据支持。
核心技术实现
智能爬虫系统
采用Scrapy框架构建分布式爬虫集群,日均采集携程、Booking等平台的酒店评论数据10万+
针对不同平台特点,开发了多种反反爬策略:
动态IP代理池(包含住宅IP和数据中心IP)
请求头随机轮换(User-Agent、Cookie等)
基于Selenium的动态页面渲染方案
验证码识别系统(TesseractOCR+打码平台备用方案)
实现自动化数据清洗管道,处理多语言评论(中/英/日等)、表情符号转换、垃圾评论过滤等
深度学习模型架构
创新性提出BERT-BiLSTM-Attention三阶段融合模型:
BERT层:获取评论的深层语义表示
BiLSTM层:捕捉上下文依赖关系
Attention层:突出关键情感词权重
引入对抗训练增强模型鲁棒性,在包含网络水军评论的数据集上保持85%+准确率
开发细粒度分类模块,支持6大类20+子类的多标签分类
实现可视化分析平台,包括:
差评热点追踪看板
服务质量趋势分析
竞品对比分析
我的核心贡献
爬虫系统开发
主导设计并实现了整套分布式爬虫系统
开发了智能调度模块,根据平台反爬强度动态调整采集策略
构建数据质量监控体系,确保采集数据的完整性和准确性
模型算法优化
提出动态权重融合策略,有效结合BERT和LSTM的优势
设计情感冲突解耦算法,显著提升矛盾评论的分类准确率
优化模型推理速度,使单条评论处理时间<50ms