项目介绍:对用户行为、业务操作进行统计分析、数据挖掘构建用户画像、实现千人千面个性化推荐系统
1. 数据仓库建设
介绍:作为数据的管理和运算中心,为用户画像、推荐系统提供基础数据服务
(1)、数据仓库建模分层设计
(2)、数据清洗(清洗过滤、数据解析、数据集成、数据修正、数据进屏蔽)
(3)、使用Spark GraphX 实现ID Mapping
(4)、构建数据立方体、用户报表、路径分析、转换分析、流量分析等报表开发
(5)、采用Atlas进行数据治理
(6)、基于Hive的查询优化
(7)、对数据质量进行一致性、完整性、准确性监控处理。
2. 用户画像构建
介绍:以用户为中心对用户打上各种规范标签:性别、年龄、地域、偏好、行为习惯、消费习惯,从而实现精准营销
(1)、事实标签开发用户基本信息、发榜、转榜、揭榜、围观、擅长领域等
(2)、用户画像模型标签开发、决策标签处理
(3)、特征工程开发(特征选择、数据加工、特征离散化、数据降维、模型训练、模型评估)
(4)、使用朴素贝叶斯算法实现用户性别预测、流失率预测
(5)、基于spark的计算优化
3. 推荐系统
介绍:实现个性化的千人千面推荐,增强用户体验,完美匹配发榜者与揭榜者
(1)、基于用户画像、用户特征进行模型训练
(2)、推荐用户感兴趣的榜单、推荐用户擅长领域的榜单
(3)、对猜你喜欢进行混合推荐、对推荐系统冷启动进行补充推荐
(4)、使用NLP工具对文本进行处理
(5)、TF-IDF评论文本情感分析获取用户评论分类
4. 打造OLAP平台
介绍:常规报表数据的实时查询分析、自定义报表的联机实时分析
(1)、使用Presto完成OLAP查询分析
(2)、自定义漏斗分析
(3)、用户画像数据查询分析
(4)、数仓报表查询分析
(5)、数据可视化使用DataV、ECharts进行展示