本作品是一套基于 Python 的豆瓣公开数据自动化采集与分析系统,核心功能覆盖豆瓣电影、图书、短评 / 长评的全量公开数据爬取、清洗与结构化处理。 技术上,我负责整体架构设计与核心模块开发:使用 Requests+XPath 实现静态页面数据的高效解析,针对动态渲染的评论页,采用无头浏览器模拟用户行为完成渲染爬取;同时搭建了代理 IP 池与请求头池,通过请求频率控制、随机延迟等策略,有效规避了平台的反爬限制,爬取成功率稳定在 98% 以上。 数据处理环节,实现了自动去重、格式校验、缺失值补全等清洗逻辑,将采集的万级数据批量写入数据库,并导出为结构化文件,为后续的用户评论情感分析、评分分布...
本项目为企业仓储业务自动化处理系统,主要解决老旧仓储系统无法批量导入数据、人工录入效率低及数据格式混乱等问题。 项目基于 Python + Selenium 开发,实现 Excel 数据自动清洗、订单自动录入、批量数据处理、系统数据回填及邮件自动发送等功能。 系统可自动识别不同格式 Excel 数据,通过规则匹配与数据标准化处理,实现多来源数据统一整理。随后自动完成仓储系统订单录入、数据关联及结果导出,大幅降低人工操作成本。 本人独立负责项目需求分析、自动化流程设计、Python 脚本开发、异常处理及项目部署交付工作。 项目上线后,客户原本需要数小时完成的数据处理流程缩...
项目简介: 多源时空分析是西安市局建设的综合性数据分析平台,涵盖数据采集、治理、分析与应用等全流程环节。 多源时空分析以用户使用 wifi 产生的信令数据为核心支撑,实时接入和处理海量数据,实现数据的高效治理 与深度挖掘。在此基础上,平台对重点目标进行精准识别与动态管控,为业务决策和风险预警提供有力的数 据支撑。 责任描述: 主导大数据计算与调度平台升级,完成 Spark 3.1 版本适配与稳定性优化。 负责 Doris 集群容量规划与数据模型设计,支撑超大规模数据高效存储与查询。 构建基于 WiFi 实时数据的流式计算体系,实现重点区域目标监控与行为分析。 ...
主导项目从传统部署迁移至容器化环境,担任运维核心角色。编写 Dockerfile 与 docker-compose 文件实现服务容器化;搭建 Jenkins+GitLab 的自动化流水线,实现代码提交后自动构建、单元测试与镜像打包;结合 Harbor 私有仓库和 Ansible 脚本,完成生产环境的自动化滚动更新。项目成果显著:将单次发布耗时由 30 分钟缩短至 5 分钟,部署成功率提升至 99%。...
本项目是一个针对特定飞行器与复杂机场环境进行适航能力量化评估的专业级平台。系统的主要功能模块包括:1. 机场核心空间信息与地理数据的采集、存储及高精度矢量化展现;2. 飞机物理属性、飞行参数等多维度基础数据的录入与动态模型构建;3. 基于底层GIS空间分析算法与多重适航规则叠加的综合能力计算;4. 自动化、多维度的适航评估报告秒级生成与导出。 我在该项目中担任核心后端研发与架构职责。主要工作包括:深入剖析并梳理高度复杂的业务评估逻辑,运用领域驱动设计(DDD)完成系统核心建模;主导核心计算引擎的开发,针对底层的空间数据特征进行了深度的查询调优与聚合计算优化,大幅提升了海量参数下的运算效率...