上海元初数智科技有限公司
个人
ID:398361
高级数据开发工程师
7年
500元/8小时
技术:Pandas(数据清洗/转换)、PySpark(分布式ETL)、SQLAlchemy(ORM),Hadoop生态(HDFS/YARN)、Hive/SQL、Spark/Map-Reduce等分布式计算框架,大数据离线和实时处理能力,数据分析工具如Tableau、Power BI,Q
项目:数据管道开发
技术栈:Kafka + Spark Structured Streaming + Hudi
案例:
搭建电商实时数据管道,处理峰值100万条/秒用户行为数据
实现端到端延迟<5秒,替代原批处理方案(小时级延迟)
数仓建模与优化
技术栈