数据ETL与数据仓库(初级)设计:
使用Python脚本结合Pandas库,从多个业务数据库(MySQL)及日志文件中抽取原始数据。
进行数据清洗、转换(如格式统一、异常值处理、用户行为序列化)和聚合(如按日/周/月统计销售额、用户活跃度等)。
设计并初步搭建了一个轻量级的数据集市/数据仓库层(基于PostgreSQL或MySQL),用于存储处理后的分析型数据,优化查询性能。
核心API接口开发 (Java & Spring Boot):
采用Spring Boot框架设计和开发RESTful API接口,为前端看板提供数据支持。
接口涵盖:实时KPI指标查询(如总销售额、DAU、转化率等)、时间序列数据查询(如近30天销售趋势)、多维度数据下钻(如按商品品类、用户地区分析)、列表数据查询(如热门商品排行、最新用户动态)等。
对高频访问接口进行缓存优化(如使用Redis),确保接口响应速度和系统稳定性。
数据计算与指标定义:
与业务方合作,明确关键运营指标的计算逻辑,如用户生命周期价值(LTV)、客户获取成本(CAC)、复购率等,并在后端实现这些复杂指标的计算引擎。
安全性与性能优化:
对API接口进行权限校验,确保数据安全。
监控并优化慢查询SQL,对大数据量查询进行分页处理和异步加载设计。
技术栈:
后端:Java, Spring Boot, Spring Data JPA/MyBatis
数据处理:Python, Pandas, SQL
数据库:MySQL, PostgreSQL, Redis (缓存)
版本控制:Git