熟练掌握后端全栈、数据处理、分布式架构、云数仓四大技术栈,具备全链路工程落地能力。后端与全栈方向,精通 Python 开发生态,熟练使用 Flask、FastAPI 框架搭建模块化后端服务,掌握权限体系设计、业务逻辑封装与接口性能优化;精通 Vue3、Element Plus、ECharts 前端技术栈,可独立完成管理后台与可视化数据看板开发,具备完整前后端分离项目的全栈交付能力。
数据采集与处理方向,精通基于 aiohttp 的异步分布式爬虫开发,掌握代理 IP 池调度、UA 池轮换、分级异常重试等反爬方案,支持多站点适配与横向扩展;熟练使用 OpenCV、FFmpeg 实现视频抽帧、图像质量筛选与批量清洗,具备百 TB 级多媒体数据自动化处理与质量校验的落地经验。
分布式高并发方向,熟悉分布式微服务架构设计,掌握消息队列削峰填谷、Redis 热点数据缓存、规则引擎、内存预计算等优化手段,具备万级并发场景下的系统性能调优与高可用设计经验。云数仓方向,熟练使用阿里云 MaxCompute 与 DataWorks 平台,掌握数仓 ODS/DWD/DWS/ADS 分层设计、增量分区写入、幂等加工、定时任务编排与全链路监控运维。
# 项目经验(润色版)
全文约1500字,保留全部核心技术点与量化成果,适配技术岗简历表述逻辑,可直接粘贴使用。
---
### 1. 海外多平台电商分布式数据采集系统
**技术栈**:Python、aiohttp、异步IO、Redis代理池、分布式任务调度、MySQL
- 基于aiohttp封装高并发异步分布式爬虫框架,适配Shopee、亚马逊、Cider、Instagram四大海外平台,针对各平台反爬机制设计动态请求频率控制、UA池轮换、代理IP智能调度与异常熔断方案。
- 实现任务分片分发与多节点协同架构,支持设备横向扩展,单设备日均稳定承载50万次HTTP请求;内置失败分级重试、断点续爬与定向补采逻辑,降低任务中断损耗。
- 搭建全链路数据清洗标准化管线,对商品属性、用户评论、社媒热度等多源异构字段做归一化、去重与异常值过滤,统一结构化入库,保障数据字段完整度与一致性。
**项目成果**:单设备日请求峰值达52万次,采集任务整体成功率稳定在95%以上,日均产出有效结构化数据30万+条,支撑运营团队竞品调研与选品分析周期从7天缩短至1天,效率提升80%。
---
### 2. 交通场景视频图像批量采集与标注数据处理项目
**技术栈**:Python、OpenCV、FFmpeg、批量自动化脚本、质量校验规则引擎
- 开发路口监控视频自动采集与抽帧脚本,实现多路视频流并行解析、关键帧智能提取、无效画面自动过滤,覆盖城市百余处路口监控数据源,替代人工逐段下载与筛选。
- 设计百TB级数据批量清洗流程,针对车辆识别场景制定画质评分、重复帧判定、目标遮挡检测规则,自动化剔除模糊、过曝、无有效目标的低质样本,统一输出标注标准格式。
- 建立标注交付与质检验收闭环,配套自动化抽检脚本,按批次完成数据交付、质量核验与问题反馈,保障标注规范与数据交付时效。
**项目成果**:累计处理图片与视频数据超100TB,无效样本自动过滤率达35%,单批次数据处理效率提升40%;交付标注数据准确率稳定在97%以上,全项目一次性验收通过。
---
### 3. 企业内部运营管理平台全栈开发
**技术栈**:前端 Vue3、Element Plus、ECharts;后端 Python、Flask、FastAPI、MySQL、Redis
- 负责平台后端服务架构与核心接口开发,基于Flask与FastAPI搭建模块化接口体系,实现用户权限管控、工单审批流转、资源调度管理、运营数据统计等核心业务逻辑,保障接口性能与数据安全。
- 独立完成前端全页面开发,基于Vue3构建管理后台与可视化数据看板,优化页面交互逻辑与首屏加载性能,适配多部门业务使用场景,降低操作门槛。
- 打通内部多业务系统数据链路,实现核心运营指标自动聚合与多维度可视化展示,替代原有人工汇总报表的工作模式。
**项目成果**:平台覆盖公司8个业务部门、200+日常用户,核心办公流程线上化率达100%;工单审批、资源申请等流程处理效率提升60%,每日节省人工统计工时2小时以上。
---
### 4. 万级并发无人机监管告警系统开发
**技术栈**:分布式微服务架构、消息队列、Redis、规则引擎、高并发优化
- 参与系统分布式架构设计,主导告警引擎模块开发,通过消息队列做接入层削峰填谷,支撑万架级无人机实时位置与状态数据的高并发接入与并行处理。
- 设计多维度违规告警规则引擎,落地禁飞区闯入、高度超限、速度异常、无报备黑飞识别等核心场景的实时判定逻辑,支持规则动态配置与热更新。
- 针对高并发场景做全链路性能优化,通过内存预计算、热点区域数据缓存、批量聚合计算等方案,降低单条告警处理延迟,提升系统整体吞吐量。
**项目成果**:系统稳定支持10000+架无人机同时在线接入,单节点消息处理吞吐量达5万QPS;违规告警端到端延迟低于200ms,场景识别准确率达99%,核心服务可用性达99.9%,支撑多地低空监管业务落地。
---
### 5. 阿里云数仓离线调度与增量数据处理体系搭建
**技术栈**:阿里云MaxCompute、DataWorks、数仓分层设计、SQL、定时调度
- 基于DataWorks搭建数仓全链路定时调度工作流,覆盖ODS源数据层、DWD明细层、DWS汇总层、ADS应用层完整分层,配置同周期上下游依赖与执行时序,保障数据加工有序闭环。
- 设计增量数据写入方案,以业务日期为分区键实现每日增量同步与分区级加工,配合`INSERT OVERWRITE`幂等写入机制,保障任务重跑时数据不重复、不丢失。
- 配置全链路容错与监控体系,包括任务失败自动重跑、运行超
用来做数据处理,数据送标前内部清洗,主要功能基于字节设备容器管理平台 做定制化开发 数据全流程流转在 这个平台上
一个清洗数据的平台,用来快速的筛选合适的图片 可以快速的给图片打标签 1~9 可以同时展示多个图片 比如 车辆或者路口数据需要同时看 多个方向的数据, 确认是不是同一时间的数据,部分设备是否回有延迟