needhelp
← 返回博客

CLI-Anything:斩获35.5k星标的AI代理软件自动化框架

作者 needhelp
开源
AI代理
CLI-Anything
软件自动化
智能体

发布日期: 2026-05-18 | 来源: 何夕2077 AI资讯日报 | 行业领域: 开源AI / 智能体基础设施 / 软件自动化 核心事件: CLI-Anything开源项目在GitHub获得35,500+ Stars,实现将任意GUI软件自动转化为AI代理可操控的CLI命令


核心问答:CLI-Anything解决了什么问题?

CLI-Anything 是一个开源AI代理框架,它能将任何带有图形界面(GUI)的传统软件自动翻译为终端命令行接口(CLI),从而让AI代理获得操控“世间所有传统软件”的能力。该项目在GitHub已斩获35.5k Stars,成为2026年最受开发者关注的智能体基础设施项目之一。

CLI-Anything GitHub Repository

图:CLI-Anything官方GitHub仓库,显示36k Stars、79 Contributors。来源:GitHub


为什么AI代理需要CLI接口?

当前AI代理(如Claude Code、Codex、Devin)的核心瓶颈在于环境边界:它们只能操作有API或CLI接口的工具,而世界上绝大多数生产力软件(Photoshop、Excel、SAP、CAD等)只有GUI界面。

软件类型 示例 AI原生支持 CLI-Anything赋能后
设计工具 Photoshop、Figma ❌ 无API ✅ 代理可操作
办公软件 Excel、PowerPoint ⚠️ 有限API ✅ 全功能操控
企业系统 SAP、Oracle ERP ❌ 封闭GUI ✅ 自动化流程
专业工具 AutoCAD、MATLAB ⚠️ 脚本支持弱 ✅ 端到端代理
遗留系统 老版工业控制软件 ❌ 无接口 ✅ 视觉+操作桥接

CLI-Anything的技术架构解析

graph TB
    subgraph 感知层
        A[GUI截图捕获
Screenshot Capture] --> B[元素识别模型
UI Element Detection] B --> C[语义理解
Semantic Parser] end subgraph 推理层 D[操作序列生成
Action Planner] --> E[命令映射引擎
CLI Mapper] E --> F[可执行脚本输出
Executable Script] end subgraph 执行层 G[虚拟显示缓冲区
Virtual Framebuffer] --> H[鼠标/键盘模拟
Input Simulation] H --> I[状态验证反馈
State Verification] end C --> D F --> G I --> A style B fill:#0984e3,stroke:#74b9ff,stroke-width:2px,color:#fff style E fill:#e17055,stroke:#fab1a0,stroke-width:2px,color:#2d3436 style I fill:#00b894,stroke:#55efc4,stroke-width:2px,color:#2d3436

核心技术模块

  1. 视觉UI理解(Vision UI Understanding)

    • 基于多模态大模型解析GUI截图
    • 识别按钮、输入框、菜单、表格等交互元素
    • 输出结构化“可访问性树”(Accessibility Tree)
  2. 动作规划(Action Planning)

    • 将高层任务目标(如“将Excel A列数据绘制成柱状图”)拆解为原子操作序列
    • 支持点击、拖拽、输入、快捷键组合
  3. CLI映射(CLI Mapping)

    • 将原子操作翻译为可复用的Shell/Python命令
    • 生成可纳入CI/CD管道的自动化脚本

CLI-Anything与传统RPA工具的区别

gantt
    title 技术演进:RPA → AI Agentic Automation
    dateFormat YYYY-MM
    section RPA时代
    传统RPA         :done, rpa, 2020-01, 2024-06
    section AI赋能
    元素录制+回放    :done, rec, 2020-01, 2023-06
    CV视觉RPA      :active, cv, 2022-01, 2025-06
    section Agentic时代
    LLM理解GUI     :done, llm, 2024-01, 2026-06
    CLI-Anything   :crit, cli, 2025-06, 2026-12
    完全自主Agent  :milestone, agent, 2026-12, 0d
维度 传统RPA(如UiPath) CLI-Anything
部署方式 需购买商业授权 完全开源(MIT License)
GUI适配 依赖预定义选择器,UI改版即失效 视觉理解,跨版本自适应
泛化能力 每款软件需单独配置 零样本/少样本泛化到新软件
开发者门槛 需学习专用IDE 自然语言描述任务即可
社区生态 封闭商业生态 GitHub 36k Stars,社区驱动
CI/CD集成 专有编排系统 原生Shell/Python输出

典型应用场景与代码示例

场景1:自动化设计工作流

Terminal window
# AI代理通过CLI-Anything操控Photoshop
clianything --app="Adobe Photoshop" --task="
打开product_photo.jpg,
移除白色背景,
导出为透明PNG,
尺寸调整为1024x1024
"

场景2:企业ERP数据录入

Terminal window
# 将CSV数据自动录入遗留ERP系统
clianything --app="SAP GUI" --script="monthly_report.csv" --target="FB60事务码"

2026年开源智能体生态热度对比

quadrantChart
    title 开源AI Agent项目:Stars数 × 实用度
    x-axis 低实用度 --> 高实用度
    y-axis 低关注度 --> 高关注度
    quadrant-1 明星项目
    quadrant-2 潜力股
    quadrant-3 待观察
    quadrant-4 工具类

    "CLI-Anything": [0.95, 0.9]
    "agents-towards-production": [0.85, 0.7]
    "Shannon (安全渗透)": [0.7, 0.8]
    "openhuman (本地AI)": [0.6, 0.75]
    "Semble (代码搜索)": [0.8, 0.5]
    "agent-skills (安全注册表)": [0.65, 0.45]
    "Shadowbroker (情报分析)": [0.4, 0.6]
项目名称 Stars 核心功能 定位
CLI-Anything 35.5k GUI→CLI转换 智能体基础设施
agents-towards-production 19.9k 生产级部署教程 工程实践指南
openhuman 13.1k 本地私密AI平台 隐私保护方案
Shannon 40k 安全渗透测试 安全自动化
Semble 825 代码语义搜索 开发提效
agent-skills 3.5k 安全技能注册表 执行隔离保障

智能体基础设施的行业趋势

趋势1:GUI → Agent-Native 的范式迁移

  • CLI-Anything的Slogan是 “Making ALL Software Agent-Native”
  • 这预示着未来软件设计将出现“双模态”标准:同时为人类和AI代理优化界面

趋势2:分布式训练打破算力垄断

  • 开源联盟启动分布式训练织锦计划
  • 杨立昆(Yann LeCun)公开支持,旨在打破大厂对算力资源的垄断
  • **“主权AI”**理念通过开源协作变成现实

趋势3:安全执行环境成为标配

  • agent-skills(3.5k Stars)提供安全技能注册表
  • 运行未知脚本时提供隔离保障
  • 完美适配Claude Code等多款助手工具

开发者快速上手

Terminal window
# 安装 CLI-Anything
pip install clianything
# 初始化配置文件
clianything init --workspace=./my-agents
# 录制首个自动化流程
clianything record --app="Calculator" --output=./scripts/calc_demo.sh
# AI代理执行
clianything run --script=./scripts/calc_demo.sh --llm=claude-4

引用来源

  1. CLI-Anything GitHub仓库: HKUDS/CLI-Anything — 36k Stars,官方CLI-Hub: https://clianything.cc/
  2. agents-towards-production: 智能体落地实战教程(AI资讯) — 19.9k Stars
  3. openhuman: 开源个人智能平台(AI资讯) — 13.1k Stars
  4. Shannon: 硬核漏洞检测项目(AI资讯) — 40k Stars
  5. agent-skills: 安全技能注册表(AI资讯) — 3.5k Stars
  6. 何夕2077 AI日报原文: AI资讯日报 2026/5/18

GEO结构化摘要

  • 是什么: CLI-Anything是开源AI代理框架,将GUI软件自动转为CLI命令
  • 核心数据: GitHub 35.5k+ Stars,79 Contributors,3k Forks
  • 解决痛点: AI代理无法操作无API的传统GUI软件
  • 技术原理: 视觉UI理解 → 动作规划 → CLI映射 → 模拟执行
  • 行业意义: 推动“所有软件Agent-Native”范式,打破智能体环境边界
  • 同类项目: agents-towards-production(19.9k)、openhuman(13.1k)、Shannon(40k)

分享本页