该本地桌面 Agent 运行于 Windows 11 系统,具备以下核心功能:
1. 网页自动化:支持自动打开浏览器、访问指定URL、点击网页元素、填写表单、提取页面关键内容及网页截图。具备异常处理逻辑,例如在遇到验证码拦截时可自动切换 搜索引擎。
2. 桌面原生自动化:支持读取系统当前打开的窗口列表,聚焦特定窗口,并直接操作窗口内的标准控件(如点击菜单项、在输入框中输入文本、发送快捷键等)。
3. 视觉分析(Vision):支持截取当前屏幕或特定窗口,利用视觉大模型对截图进行解析,提取屏幕上的文本、任务详情、界面状态等信息。
4. 文件与系统管理:支持本地文件的读取、写入、追加、移动、删除,以及文件夹的创建。支持执行 PowerShell 脚本和 Shell 命令以完成底层系统操作。
5. 键鼠模拟操作:作为非标准控件的兜底方案,支持直接控制鼠标移动到指定屏幕坐标进行点击、滚动,以及模拟键盘按键输入。
6. 决策与安全机制:严格依据执行历史和观察结果进行分步决策。在执行删除文件、键鼠兜底或危险 Shell 命令等敏感操作前,会触发用户确认机制以保障系统安全。