技术:掌握大数据相关的技术栈:Hadoop、spark、hive、kafka、hdfs等,有过海量数据处理的经验,并掌握hive、spark优化 数据库:mysql、redis 搜索引擎ES 开发语言:python、go 基于linux开发、熟悉shell脚本及linux命令,
项目:1、三角兽科技有限公司流批数据处理平台的搭建 搭建的实时流和批处理平台,用大数据相关技术处理解析日志,并以可视化看板形式展现各种指标。 2、三角兽科技有限公司分布式爬虫系统的搭建 稳定爬取百度贴吧、豆瓣、B站等各大网站 3、腾讯微视搜索相关垂类数据开发 包括用户搜索、微
案例: b站评论爬取分布式爬虫系统的搭建