在编程语言上,Python、Java 均有涉猎,数据库领域,精通 SQL Server,熟悉 MySQL、Noe4j、Redis 等,可进行数据查询与处理。服务器与系统技术上
运用Python及Pandas库完成企业数据清洗与报表自动化,人工处理时间减少60%;参与Django任务管理系统开发,实现用户登录、任务创建功能
医疗集团拥有 10 + 业务系统(HIS、LIS、PACS 等),但面临数据孤岛严重、患者信息重复率达 20%、报表生成耗时 3 天等问题。我主导开发了基于 Python 的数据治理平台,实现全集团数据的标准化、自动化监控和质量提升。
自动化数据质量监控
开发 Python 脚本定时扫描 100 + 业务表,检测完整性、准确性、一致性
基于规则引擎(自定义 YAML 配置)自动生成质量报告
数据标准化引擎
实现患者姓名、身份证号、诊断编码等 30 + 字段的标准化处理
开发智能纠错算法,自动修复 80% 的地址、电话格式问题
数据血缘分析
使用 NetworkX 构建数据血缘图谱,可视化展示 300 + 数据表关系
开发 SQL 解析器,自动识别 ETL 任务的字段级血缘关系
自动化数据修复
基于机器学习算法预测缺失值,修复准确率达 92%
开发冲突解决策略,自动合并重复患者记录
项目成果
数据质量提升:患者信息准确率从 78% 提升至 98.5%,重复记录减少 85%
效率提升:月度报表生成时间从 3 天缩短至 4 小时,异常处理响应速度提升 90%