数据处理与清洗:熟练使用SQL进行数据提取、过滤、聚合;精通Python(Pandas、NumPy)或R进行数据清洗、缺失值处理、异常值检测、数据格式转换,能够处理亿级数据的预处理流程。
统计分析:掌握描述性统计、假设检验(t检验、卡方检验)、相关分析、回归分析(线性、逻辑回归)、时间序列分析(ARIMA、指数平滑)等基础统计方法,能从数据中提炼业务洞察。
项目经验:电商零售数据清洗与质量优化平台
项目背景
某跨国食品数据集(Open Food Facts 真实数据)包含 3000+ 条商品记录、8 个维度字段,存在编码混乱、列错位、多语言乱码、重量单位不一致、特殊字符等问题,严重影响后续分析建模。
我的职责
独立完成全流程数据清洗与质量治理,构建可复用的数据清洗 Pipeline。