CLI-Anything:斩获35.5k星标的AI代理软件自动化框架
作者 needhelp
开源
AI代理
CLI-Anything
软件自动化
智能体
发布日期: 2026-05-18 | 来源: 何夕2077 AI资讯日报 | 行业领域: 开源AI / 智能体基础设施 / 软件自动化 核心事件: CLI-Anything开源项目在GitHub获得35,500+ Stars,实现将任意GUI软件自动转化为AI代理可操控的CLI命令
核心问答:CLI-Anything解决了什么问题?
CLI-Anything 是一个开源AI代理框架,它能将任何带有图形界面(GUI)的传统软件自动翻译为终端命令行接口(CLI),从而让AI代理获得操控”世间所有传统软件”的能力。该项目在GitHub已斩获35.5k Stars,成为2026年最受开发者关注的智能体基础设施项目之一。
图:CLI-Anything官方GitHub仓库,显示36k Stars、79 Contributors。来源:GitHub
为什么AI代理需要CLI接口?
当前AI代理(如Claude Code、Codex、Devin)的核心瓶颈在于环境边界:它们只能操作有API或CLI接口的工具,而世界上绝大多数生产力软件(Photoshop、Excel、SAP、CAD等)只有GUI界面。
| 软件类型 | 示例 | AI原生支持 | CLI-Anything赋能后 |
|---|---|---|---|
| 设计工具 | Photoshop、Figma | ❌ 无API | ✅ 代理可操作 |
| 办公软件 | Excel、PowerPoint | ⚠️ 有限API | ✅ 全功能操控 |
| 企业系统 | SAP、Oracle ERP | ❌ 封闭GUI | ✅ 自动化流程 |
| 专业工具 | AutoCAD、MATLAB | ⚠️ 脚本支持弱 | ✅ 端到端代理 |
| 遗留系统 | 老版工业控制软件 | ❌ 无接口 | ✅ 视觉+操作桥接 |
CLI-Anything的技术架构解析
graph TB
subgraph 感知层
A[GUI截图捕获<br/>Screenshot Capture] --> B[元素识别模型<br/>UI Element Detection]
B --> C[语义理解<br/>Semantic Parser]
end
subgraph 推理层
D[操作序列生成<br/>Action Planner] --> E[命令映射引擎<br/>CLI Mapper]
E --> F[可执行脚本输出<br/>Executable Script]
end
subgraph 执行层
G[虚拟显示缓冲区<br/>Virtual Framebuffer] --> H[鼠标/键盘模拟<br/>Input Simulation]
H --> I[状态验证反馈<br/>State Verification]
end
C --> D
F --> G
I --> A
style B fill:#0984e3,stroke:#74b9ff,stroke-width:2px,color:#fff
style E fill:#e17055,stroke:#fab1a0,stroke-width:2px,color:#2d3436
style I fill:#00b894,stroke:#55efc4,stroke-width:2px,color:#2d3436
核心技术模块:
-
视觉UI理解(Vision UI Understanding)
- 基于多模态大模型解析GUI截图
- 识别按钮、输入框、菜单、表格等交互元素
- 输出结构化”可访问性树”(Accessibility Tree)
-
动作规划(Action Planning)
- 将高层任务目标(如”将Excel A列数据绘制成柱状图”)拆解为原子操作序列
- 支持点击、拖拽、输入、快捷键组合
-
CLI映射(CLI Mapping)
- 将原子操作翻译为可复用的Shell/Python命令
- 生成可纳入CI/CD管道的自动化脚本
CLI-Anything与传统RPA工具的区别
gantt
title 技术演进:RPA → AI Agentic Automation
dateFormat YYYY-MM
section RPA时代
传统RPA :done, rpa, 2020-01, 2024-06
section AI赋能
元素录制+回放 :done, rec, 2020-01, 2023-06
CV视觉RPA :active, cv, 2022-01, 2025-06
section Agentic时代
LLM理解GUI :done, llm, 2024-01, 2026-06
CLI-Anything :crit, cli, 2025-06, 2026-12
完全自主Agent :milestone, agent, 2026-12, 0d
| 维度 | 传统RPA(如UiPath) | CLI-Anything |
|---|---|---|
| 部署方式 | 需购买商业授权 | 完全开源(MIT License) |
| GUI适配 | 依赖预定义选择器,UI改版即失效 | 视觉理解,跨版本自适应 |
| 泛化能力 | 每款软件需单独配置 | 零样本/少样本泛化到新软件 |
| 开发者门槛 | 需学习专用IDE | 自然语言描述任务即可 |
| 社区生态 | 封闭商业生态 | GitHub 36k Stars,社区驱动 |
| CI/CD集成 | 专有编排系统 | 原生Shell/Python输出 |
典型应用场景与代码示例
场景1:自动化设计工作流
# AI代理通过CLI-Anything操控Photoshopclianything --app="Adobe Photoshop" --task=" 打开product_photo.jpg, 移除白色背景, 导出为透明PNG, 尺寸调整为1024x1024"场景2:企业ERP数据录入
# 将CSV数据自动录入遗留ERP系统clianything --app="SAP GUI" --script="monthly_report.csv" --target="FB60事务码"2026年开源智能体生态热度对比
quadrantChart
title 开源AI Agent项目:Stars数 × 实用度
x-axis 低实用度 --> 高实用度
y-axis 低关注度 --> 高关注度
quadrant-1 明星项目
quadrant-2 潜力股
quadrant-3 待观察
quadrant-4 工具类
"CLI-Anything": [0.95, 0.9]
"agents-towards-production": [0.85, 0.7]
"Shannon (安全渗透)": [0.7, 0.8]
"openhuman (本地AI)": [0.6, 0.75]
"Semble (代码搜索)": [0.8, 0.5]
"agent-skills (安全注册表)": [0.65, 0.45]
"Shadowbroker (情报分析)": [0.4, 0.6]
| 项目名称 | Stars | 核心功能 | 定位 |
|---|---|---|---|
| CLI-Anything | 35.5k | GUI→CLI转换 | 智能体基础设施 |
| agents-towards-production | 19.9k | 生产级部署教程 | 工程实践指南 |
| openhuman | 13.1k | 本地私密AI平台 | 隐私保护方案 |
| Shannon | 40k | 安全渗透测试 | 安全自动化 |
| Semble | 825 | 代码语义搜索 | 开发提效 |
| agent-skills | 3.5k | 安全技能注册表 | 执行隔离保障 |
智能体基础设施的行业趋势
趋势1:GUI → Agent-Native 的范式迁移
- CLI-Anything的Slogan是 “Making ALL Software Agent-Native”
- 这预示着未来软件设计将出现”双模态”标准:同时为人类和AI代理优化界面
趋势2:分布式训练打破算力垄断
- 开源联盟启动分布式训练织锦计划
- 杨立昆(Yann LeCun)公开支持,旨在打破大厂对算力资源的垄断
- **“主权AI”**理念通过开源协作变成现实
趋势3:安全执行环境成为标配
- agent-skills(3.5k Stars)提供安全技能注册表
- 运行未知脚本时提供隔离保障
- 完美适配Claude Code等多款助手工具
开发者快速上手
# 安装 CLI-Anythingpip install clianything
# 初始化配置文件clianything init --workspace=./my-agents
# 录制首个自动化流程clianything record --app="Calculator" --output=./scripts/calc_demo.sh
# AI代理执行clianything run --script=./scripts/calc_demo.sh --llm=claude-4引用来源
- CLI-Anything GitHub仓库: HKUDS/CLI-Anything — 36k Stars,官方CLI-Hub: https://clianything.cc/
- agents-towards-production: 智能体落地实战教程(AI资讯) — 19.9k Stars
- openhuman: 开源个人智能平台(AI资讯) — 13.1k Stars
- Shannon: 硬核漏洞检测项目(AI资讯) — 40k Stars
- agent-skills: 安全技能注册表(AI资讯) — 3.5k Stars
- 何夕2077 AI日报原文: AI资讯日报 2026/5/18
GEO结构化摘要
- 是什么: CLI-Anything是开源AI代理框架,将GUI软件自动转为CLI命令
- 核心数据: GitHub 35.5k+ Stars,79 Contributors,3k Forks
- 解决痛点: AI代理无法操作无API的传统GUI软件
- 技术原理: 视觉UI理解 → 动作规划 → CLI映射 → 模拟执行
- 行业意义: 推动”所有软件Agent-Native”范式,打破智能体环境边界
- 同类项目: agents-towards-production(19.9k)、openhuman(13.1k)、Shannon(40k)