编程语言:精通 Python (主要开发语言),熟悉 Node.js 和 SQL。
后端框架:熟练使用 FastAPI, Flask 等轻量级框架构建 RESTful API。
自动化与爬虫:精通 Playwright/Selenium 网页自动化,熟悉 Windows UI Automation 桌面自动化技术。
人工智能:深入理解 LLM (大语言模型) 原理,擅长 Prompt Engineering、Function Calling (工具调用) 以及 RAG (检索增强生成) 架构。
数据库:熟悉 PostgreSQL, Redis 以及向量数据库 (如 Pinecone/Milvus) 的使用。
工具与环境:熟练使用 Git, Docker, Windows 11 系统管理及 PowerShell 脚本编写。
项目经验
项目名称:智能桌面自动化 Agent 系统
项目角色:核心开发工程师
项目描述:该项目旨在开发一个运行在 Windows 11 环境下的本地智能助手,能够通过自然语言理解用户意图,并自动操作浏览器和桌面软件完成复杂任务。
核心职责与技术点:
多模态感知:集成计算机视觉 (Vision) 技术,实现对屏幕截图的实时分析与 UI 元素识别,解决传统自动化工具无法处理的非结构化界面问题。
决策引擎开发:基于 LLM 设计了任务规划与执行闭环,支持多步骤逻辑推理、错误自愈及长短期记忆管理。
跨平台工具链:封装了统一的工具调用接口 (Tool Use),涵盖文件系统操作、浏览器控制、系统进程管理等,实现了从 Web 到桌面的全场景覆盖。
性能优化:通过异步 IO 和任务并行化处理,显著提升了 Agent 在执行多目标搜索和数据采集时的响应速度。
该本地桌面 Agent 运行于 Windows 11 系统,具备以下核心功能: 1. 网页自动化:支持自动打开浏览器、访问指定URL、点击网页元素、填写表单、提取页面关键内容及网页截图。具备异常处理逻辑,例如在遇到验证码拦截时可自动切换 搜索引擎。 2. 桌面原生自动化:
该本地桌面 Agent 运行于 Windows 11 系统,具备以下核心功能: 1. 网页自动化:支持自动打开浏览器、访问指定URL、点击网页元素、填写表单、提取页面关键内容及网页截图。具备异常处理逻辑,例如在遇到验证码拦截时可自动切换 搜索引擎。 2. 桌面原生自动化:
ChatGPT Web Agent 是一套运行在 Win11 本地的网页版智能代理系统。它以 ChatGPT 网页作为决策核心,本地工具层负责真实执行,把浏览器、桌面窗口、文件系统、命令行和长期记忆整合进同一套工作流里。 它支持浏览器自动化,包括打开网页、点击、输入、抓取正