我熟练掌握大数据技术栈,包括 Hadoop 集群搭建与维护、Hive 数据仓库建模与 SQL 开发,能够独立完成 ETL 流程的设计与实现,熟悉 Linux 操作系统与 Shell 脚本编写,具备自动化运维与批量数据处理能力。同时,精通 Python 数据处理技术,熟练使用 Pandas、Numpy 库进行数据清洗、转换与分析,掌握 Requests、DrissionPage 等爬虫工具实现多平台数据采集,能高效处理结构化与非结构化数据。此外,熟悉 MySQL 数据库操作,可完成数据增删改查、复杂查询优化与数据迁移;掌握 Java 基础语法与 JDBC 开发。
Python 数据清洗实操项目 | 2025.10 - 2025.11 个人
基于 pandas/numpy 对爬虫采集的招聘数据做全流程预处理全流程 ETL 处理
完成去重、缺失值填充、列名标准化、薪资字段提取与格式转换
输出标准 UTF-8 CSV 结构化数据,提升数据可用性,支撑后续统计分析
个人网页开发 | 2025.11 – 20225.12 个人
使用VSCode开发HTML/CSS/JS静态页面,实现基础交互功能
Hadoop 大数据集群搭建与运维项目 | 2026.02 - 2026.04 个人
基于 VMware 搭建 3 节点 Hadoop 完全分布式集群,完成 HDFS、YARN、MapReduce 部署与优化
搭建 Hive 数据仓库,解决元数据连接、依赖、权限等问题,实现 Hive 与 Hadoop 集成
编写 Shell 脚本实现集群一键启停、日志监控、数据备份,保障集群稳定运行
抖音视频爬虫 | 2026.03 - 2026.04 个人
基于 Python + DrissionPage 实现抖音用户视频批量采集与自动翻页下载
完成接口监听、数据解析、无水印下载,稳定采集视频50 + 条