猿急送>

北京后端兼职程序员

ID：169855

救命啊！我变成一只猫了！！

大数据开发

公司信息：
北京千晨科技有限公司

工作经验：
4年

兼职日薪：
500元/8小时

兼职时间：
可工作日驻场（离职原因）
可工作日驻场（自由职业原因）

所在区域：
北京
海淀

技术能力

掌握scala、java编程语言
掌握SparkMLlib，SparkRDD、SparkSql、SparkStreaming，，进行实时和离线分析
掌握传统机器学习算法（LR，GBDT, ALS, 决策树，随机森林, 贝叶斯，PCA,K-means)
使用MongoDB，redis，hive，hbase，Mysql等数据库
熟悉linux，flume，kafka，zookeeper
熟悉hadoop体系架构

项目经验

项目一、漫客栈推荐系统
项目描述：客户进入app，挑选漫画类型、收藏漫画、漫画评分，漫画购买等，根据用户平时的浏览习惯，用户喜好做相关推荐。

离线推荐：
使用SparkSql读取hive表数据，以漫画各类别人气统计，周点击率，总月票，总收藏，签约漫画总点击率，新作漫画周点击率，签约漫画周人气，新作漫画周人气，，VIP漫画周人气等各个维度统计，分别存入MongoDB表中

模型训练：ALS,逻辑回归
1：使用SparkSql读取用户历史评分表，使用ALS模型训练数据，计算预测评分，得到用户的评分推荐列表，并且还会得到漫画的隐形特征，计算漫画评分相似度列表，分别存入redis中，用于评分维度实时推荐
2：使用SparkSql读取用户历史收藏表，下载表，月票表，打赏表，组成用户喜好表，读取用户历史浏览表，对其进行一系列操作（是否喜好做0和1分类，添加特征字段，漫画名两两相关），对其特征组成稀疏向量，使用逻辑回归模型，计算特征权重，得出漫画特征权重表，根据漫画两两权重计算得出漫画喜好相似度列表，分别存入redis，用于喜好维度实时推荐

实时推荐：
1：用户登陆时，使用SparkStreaming直连Kafka，根据用户ID，读取redis用户评分推荐列表，获得一部分推荐漫画，读取redis用户最近喜好表，读取redis漫画喜好相似度列表，计算每个漫画得分，再从漫画特征权重表读取得分，计算总得分，获取一部分推荐漫画，然后存入MongoDB；
2：用户对某个漫画评分时，使用SparkStreaming连接Kafka，读取redis用户最近评分表，读取redie漫画评分相似度列表，获得此次评分漫画相似列表，作为备选列表，因为评分的高低不同，还需要进行一系列计算，得出最终的推荐得分，存入MongoDB
3：用户对某个漫画收藏，打赏等喜好行为，使用SparkStraming连接Kafka，读取redis漫画喜好相似度列表，获得此次喜好漫画相似度列表

项目二、广告精准投放平台
项目描述：本项目以广告投放引擎与Ad Exchange进行信息交互所产生的日志数据为基础，构建DMP，把分散的多方数据进行整合纳入统一的技术平台，并对这些数据进行标准化和细分，标签化管理，为 DSP 等提供数据支持，使 DSP 获取更好的投放效果。

数据清洗：
读取hdfs中的数据，过滤出有效数据，将处理后的数据保存成parquet文件并采用Snappy进行压缩存储到hdfs。之后处理的数据都基于parquet文件进行处理。

报表统计：
读取hdfs上的parquet文件，从地域、运营商、网络类型、终端设备类型、操作系统等维度分析了展示量、点击量、终端设备类型、操作系统等维度分析了展示量、点击量、参与竞价数、广告成本等指标，分析广告的投放情况，将报表结果存入mysql中。

用户画像：
对用户的App 名称、渠道、设备、关键字（使用TF-ITF构建关键字停用词库）、渠道商圈信息等进行数据标签化，构建用户画像。利用Spark Graphx 图计算完成统一用户识别及上下文标签合并，实现用户标签归一化。给用户的特征权重附上衰减系数，基于衰减系数与当日的标签进行计算，打上用户的最终标签，将最终结果存入ElasticSearch中。