一、基础能力层
编程语言
• SQL(核心必备):查询优化、窗口函数、存储过程、复杂关联查询
• Python:Pandas、NumPy数据处理,PySpark大数据处理
• Shell/Bash:自动化脚本、任务调度
• Java/Scala:Spark/Flink开发(可选进阶)
数据库知识
• 关系型数据库:MySQL、PostgreSQL、Oracle、TiDB
• 列式数据库:ClickHouse、Greenplum
• NoSQL:MongoDB、Redis、HBase
• 数据仓库:Hive、Doris、StarRocks
二、ETL开发层
数据采集
• 全量/增量数据抽取
• CDC技术:Canal、Debezium、Maxwell
• 日志采集:Flume、Filebeat、Logstash
• API接口调用和爬虫技术
• 消息队列:Kafka、RocketMQ
数据转换
• 数据清洗:去重、异常值处理、空值处理
• 数据标准化和规范化
• 数据类型转换和格式统一
• 数据脱敏和加密
• 业务规则计算和派生字段生成
数据加载
• 批量导入优化
• 实时数据写入
• 分区表管理
• 索引设计和优化
• 数据质量校验
ETL工具
• DataX、Sqoop(离线批量)
• Kettle/PDI(可视化开发)
• Airflow、DolphinScheduler(调度编排)
• Flink、Spark Streaming(实时处理)
• dbt(现代数据转换工具)
三、报表开发层
BI工具
• Tableau、Power BI(可视化分析)
• FineReport、帆软(企业级报表)
• Superset、Metabase(开源方案)
• DataV、Sugar(大屏展示)
报表类型
• 明细报表:交易流水、操作日志
• 汇总报表:日报、月报、年报
• 对比分析:同比、环比、占比
• 趋势分析:时间序列图表
• 交叉分析:多维度透视表
• 实时监控大屏
可视化技能
• 图表选择:柱状图、折线图、饼图、散点图等
• 配色方案和视觉设计
• 交互设计:钻取、联动、筛选
• 前端技术:ECharts
项目经历:海马体摄影连锁门店数据中台建设
项目背景:
海马体作为全国连锁摄影品牌,拥有300+线下门店,日均订单量10万+。为支撑业务快速扩张和精细化运营,需要构建统一的数据中台,实现跨门店数据整合、实时业务监控和智能决策支持。
技术架构:
• 数据采集层:Canal实现MySQL binlog实时采集,DataX进行离线全量/增量同步
• 消息队列:Kafka集群处理实时数据流,日均处理消息量5000万+
• 实时计算:Flink实时处理框架,实现订单、支付、会员行为的秒级统计
• 离线计算:Spark批处理,完成T+1离线数仓建模和指标计算
• 存储层:TiDB作为OLTP主库,ClickHouse作为OLAP分析库
• 数据应用:基于Superset和FineReport构建报表体系
主要职责:
1. 数据仓库建模与开发
• 设计四层数据仓库架构(ODS/DWD/DWS/ADS),建立30+主题域数据模型
• 开发订单主题、会员主题、门店运营主题等核心数据集市
• 实现拉链表管理会员画像历史变化,优化存储空间节省40%
• 建立一致性维度和共享维度,确保跨主题数据口径统一
1. 实时数据处理开发
• 基于Flink CEP开发实时营销触达系统,识别高价值客户行为并实时推送优惠券
• 构建实时门店销售大屏,5秒内更新全国门店实时GMV、订单量、客流量
• 开发实时库存预警系统,当库存低于阈值时自动触发补货流程
• 优化Flink任务内存配置,解决数据倾斜问题,处理延迟从30秒降至3秒
1. 离线ETL开发与优化
• 开发100+ ETL任务,完成从业务库到数仓的全链路数据加工
• 优化复杂SQL查询,通过分区裁剪、索引优化等手段,核心报表查询性能提升60%
• 设计增量更新策略,将每日全量同步改为增量同步,数据处理时间从4小时缩短至1小时
• 建立数据质量监控体系,开发自动化对账脚本,确保数据准确性99.9%+
1. ClickHouse性能调优
• 针对亿级订单明细表设计合理的分区键和排序键,查询性能提升10倍
• 优化聚合查询的物化视图设计,复杂报表响应时间从分钟级降至秒级
• 调整MergeTree引擎参数,解决高并发写入时的内存OOM问题
• 实现冷热数据分离存储策略,降低存储成本35%
1. 报表开发与数据应用
• 开发门店运营日报、会员分析报表、营销效果分析等30+核心报表
• 构建管理层经营分析看板,支持多维度钻取分析
• 开发自助取数平台,业务人员可自主进行数据查询,减少80%取数需求
项目成果:
• 建立统一数据资产平台,沉淀客户数据5000万+,订单数据2亿+
• 数据时效性从T+1提升至准实时(5秒延迟),支撑精准营销和实时决策
• 报表开发效率提升70%,业务人员数据获取时间从2天缩短至10分钟
• 通过数据驱动运营,会员复购率提升25%,营销ROI提升40%
完成底层数据集的开发,优化查询速度以及新增额外的一些查询字段,页面设计,布局优化以及数据出现问题的监控报警之类的
完成财务每月每天需要核对的数据集开发,报表设计以及相关页面的开发,可以在页面中进行穿透找到问题出现的原因