本人具备扎实的后端开发与复杂自动化系统架构能力,深耕网络爬虫、浏览器自动化及分布式系统设计。在浏览器自动化领域,熟练运用 Playwright 和 Selenium,能独立解决复杂的页面渲染、动态加载及滑块验证码识别,具备丰富的防检测(Anti-Fingerprinting)与反爬虫对抗经验。
在架构设计方面,精通基于 Redis 维护的高并发账号池与代理池系统,能够实现多维度的负载均衡(轮询、权重算法),并具备完备的动态阈值控制与账号异常容错(自动剔除与企业微信/钉钉告警)机制。
熟练掌握 Python (FastAPI/Flask) 或 Node.js 开发高效的异步 Web 接口,能够设计高可靠的无人值守全自动工作流(基于 Celery 或 BullMQ 的异步任务队列),实现文件解析、状态轮询与异常重试。
此外,具备良好的数据安全与文件管理经验,熟悉 Linux 定时任务(Cron)与文件存储生命周期管理(TTL 机制),能严格把控数据时效性与存储成本。
项目名称:学术文献全自动检测与分布式查重管理系统
项目描述:
该项目是一款针对海量学术文献进行合规性检测的无人值守自动化系统。系统核心解决学术机构与个人在缺乏官方 API 的情况下,如何安全、高效、合规地利用多账号资源进行大批量文件检测、结果提取与时效性存储的问题。
核心技术栈:
Playwright / Selenium, Python (FastAPI), Redis, Celery (分布式任务队列), Linux/Cron
主要职责与技术实现:
多账号动态负载均衡与风控系统: 独立设计并实现了基于 Redis 的智能账号池管理系统。支持 20+ 个敏感账号的动态轮询与并发隔离,通过 Redis 计数器严格限制单账号日提交上限(20次/日),成功规避平台封号风险。引入健康检查机制,对登录失败或异常挂起的账号实现秒级剔除与自动化监控告警。
全流程无人值守自动化(End-to-End Workflow): 基于 Playwright/Selenium 模拟真实用户行为,攻克了动态表单提交、特定选项(如 No Repository 选项)精准勾选等技术难点。通过 Celery 异步队列实现“文件上传-账号分配-模拟提交-状态轮询-报告下载(包含相似度与AI生成检测报告)”的全链路闭环,妥善处理了网络抖动与长耗时任务。
高安全性存储与时效控制: 采用非对称加密生成用户专属检测码,确保用户隐私与数据安全。基于 Linux 定时任务与存储生命周期管理,设计了严格的 3 天文件 TTL 自动销毁机制,到期自动擦除服务器缓存,平衡了系统存储负载与数据安全性。