Pandas(数据清洗/转换)、PySpark(分布式ETL)、SQLAlchemy(ORM),Hadoop生态(HDFS/YARN)、Hive/SQL、Spark/Map-Reduce等分布式计算框架,大数据离线和实时处理能力,数据分析工具如Tableau、Power BI,Quick BI,永洪,帆软报表,Flume, Sqoop, Kafka Connect, Airflow
数据管道开发
技术栈:Kafka + Spark Structured Streaming + Hudi
案例:
搭建电商实时数据管道,处理峰值100万条/秒用户行为数据
实现端到端延迟<5秒,替代原批处理方案(小时级延迟)
数仓建模与优化
技术栈:Hive LLAP + Kylin + Python UDF
创新点:
开发动态标签引擎:SQL规则标签(Hive) + 模型标签(Python UDF)混合计算
利用Python实现增量建模:自动识别新增分区,历史数据跳过计算(节省70%资源)
数据治理
工具链:Great Expectations(数据质量) + Atlas(元管理) + Python自动化脚本
成果:
通过Python自动生成数据血缘图谱,覆盖2000+表字段溯源
数据质量规则覆盖率从35%提升至92%