猿急送>

北京后端兼职程序员

ID：213846

景鑫

大数据工程师

公司信息：
阿拉丁

工作经验：
3年

兼职日薪：
500元/8小时

兼职时间：
下班后
周六
周日

所在区域：
北京
海淀

技术能力

 理解并掌握Java编程原理，熟悉Java虚拟机基础知识
 掌握python语言编程基础，了解selenium、scapy爬虫编写，了解django web框架
 熟练使用Linux操作命令，掌握基本的shell脚本编程
 熟悉Hadoop生态圈常用工具信息，对Hadoop、HBase、Hive、Spark、Flink工具熟练应用
 熟悉elasticsearch大文本搜索技术
 理解HBase工作原理和运行原理
 理解Hive工作原理，熟练常用HiveQL语句，掌握编写UDF函数编写

项目经验

项目一：预购行为分析系统
所用技术：hadoop、hive、hbase、sqoop、Python、Spark
开发环境：eclipse、pycharm 2017.03、jdk 1.8.0、mysql 5.1.10、maven 3.5
项目描述：通过Python按指定网址范围爬数据，将原始信息存入HDFS中。对采集的数据进行处理，将信息来源与内容存入hbase中。编写自定义hive UDF函数，对用户回复信息进行中文分词处理。通过HiveQL对数据进行分析统计，将统计结果存入Hive内部表内，通过Sqoop将结果导入至Mysql，供前台用户使用。
负责模块：
 将原始数据csv文件中的内容通过Java调用，再通过HDFS API上传至HDFS指定文件夹
 地址生成库：MapReduce清洗数据，取出一级网址名称，取出最长网址名称，通过正则表达式去除记录图片、文件的网址和空网址，去除非用户行为数据
 对原始数据中每个网址的内容利用现有的庖丁解牛包进行中文分词：
（1）了解庖丁解牛中文分词工具
（2）利用庖丁解牛中文分词工具编写hive UDF自定义函数
（3）编写对业务数据进行中文分词处理的hiveQL语句Demo，供项目组参考使用
 整理地址库：对行为地址进行分类，对产品地址进行分类，提取行为地址分词数据
 Mapreduce程序部分：
（1）数据清洗：使用mapreduce中的map程序（不使用reduce）去除原始数据中不符合规定数据格式数据，及非用户主观行为（广告，配置数据等）数据。
（2）行为匹配：MapReduce关联行为地址库识别用户访问行为，标识用户行为分类。
（3）用户行为统计：统计用户行为地址访问次数，识别用户高频访问地址。
（4）整体行为统计：统计热门地址，用户访问最多地址及访问人数。
（5）产品匹配：关联产品地址库标识用户行为匹配中的产品地址。
（6）用户产品统计：统计用户高频访问地址。
（7）整体产品统计：统计产品整体热门程度。
（8）用户行为top提取：提取用户高频地址，用于缩小数据范围，用户整体行为地址数据量比较大，不利于关系数据库存储。
（9）用户行为画像：关联行为分类数据统计用户各分类情况。
（10）预购用户群提取：从行为匹配数据中提取预购用户群。
 Spark程序：
（1）协同过滤：根据用户数据访问情况，利用协同过滤算法为用户对产品的喜好打分，评估喜欢程度。
（2）产品相似：关联产品分类数据，对未能协同过滤推荐用户提取访问产品，根据产品分类推荐相似产品。
（3）关联规则：分析用户产品访问的关联规则模型，根据关联规则模型对用户的访问情况进行产品推荐。
 Hadoop平台调度脚本执行项目功能：定Shell脚本，用于程序调度、启动mapreduce和spark程序。
 程序部署：Mapreduce程序和spark程序导出jar包，与sh调度脚本部署到同一工作目录即可。
项目二：yl定制明星智库-定制代言人选择系统的用户价值
所用技术：spark、hadoop、hive
开发环境：pycharm、python2.7.5、MongoDB、mssql、java1.8、elasticsearch、hive
项目描述：通过收集到的明星信息，对已代言明星进行舆情监控以及热度分析，把握艺人实时热度变化，通过代言人优选，根据品牌调性以及明星调性的相符程度，筛选品牌意向代言人，提高决策效率。
数据流向： MongoDB->hive->spark(计算)->mssql
负责模块：
 微博舆情分析
（1）使用mongo-spark-connector官方连接器，通过spark读取MongoDB中微博评论数据，并将数据保存到原始层，确保没问题后删除MongoDB中数据，缓解MongoDB压力。
（2）使用jieba对微博评论内容进行分词，并获取词性。使用SnowNLP对分词结果进行情感分析。将这些数据保存，其中分词结果使用array<map>格式保存。
（3）通过集群框架，实现tfidf算法
（4）对形容词使用tfidf算法分析热词，对情感分析结果按区间进行统计并计数。
（5）将最终结果使用foreachPartition算子，存入mssql临时数据表。
（6）使用MERGE语句对线上表进行更新。
 全部新闻信息展示（大文本搜索）
（1）将新闻类数据（百度新闻、头条新闻、微信公众号等）导入hive原始层，删除mongodb数据。
（2）对数据进行清，清洗后存入hive。
（3）对新闻数据进行分析（nlp、统计等），结果导入mssql数据表
（4）按照需求将需要