needhelp
← 返回博客

CLI-Anything:斩获35.5k星标的AI代理软件自动化框架

作者 needhelp
开源
AI代理
CLI-Anything
软件自动化
智能体

发布日期: 2026-05-18 | 来源: 何夕2077 AI资讯日报 | 行业领域: 开源AI / 智能体基础设施 / 软件自动化 核心事件: CLI-Anything开源项目在GitHub获得35,500+ Stars,实现将任意GUI软件自动转化为AI代理可操控的CLI命令


核心问答:CLI-Anything解决了什么问题?

CLI-Anything 是一个开源AI代理框架,它能将任何带有图形界面(GUI)的传统软件自动翻译为终端命令行接口(CLI),从而让AI代理获得操控”世间所有传统软件”的能力。该项目在GitHub已斩获35.5k Stars,成为2026年最受开发者关注的智能体基础设施项目之一。

CLI-Anything GitHub Repository

图:CLI-Anything官方GitHub仓库,显示36k Stars、79 Contributors。来源:GitHub


为什么AI代理需要CLI接口?

当前AI代理(如Claude Code、Codex、Devin)的核心瓶颈在于环境边界:它们只能操作有API或CLI接口的工具,而世界上绝大多数生产力软件(Photoshop、Excel、SAP、CAD等)只有GUI界面。

软件类型示例AI原生支持CLI-Anything赋能后
设计工具Photoshop、Figma❌ 无API✅ 代理可操作
办公软件Excel、PowerPoint⚠️ 有限API✅ 全功能操控
企业系统SAP、Oracle ERP❌ 封闭GUI✅ 自动化流程
专业工具AutoCAD、MATLAB⚠️ 脚本支持弱✅ 端到端代理
遗留系统老版工业控制软件❌ 无接口✅ 视觉+操作桥接

CLI-Anything的技术架构解析

graph TB
    subgraph 感知层
        A[GUI截图捕获<br/>Screenshot Capture] --> B[元素识别模型<br/>UI Element Detection]
        B --> C[语义理解<br/>Semantic Parser]
    end

    subgraph 推理层
        D[操作序列生成<br/>Action Planner] --> E[命令映射引擎<br/>CLI Mapper]
        E --> F[可执行脚本输出<br/>Executable Script]
    end

    subgraph 执行层
        G[虚拟显示缓冲区<br/>Virtual Framebuffer] --> H[鼠标/键盘模拟<br/>Input Simulation]
        H --> I[状态验证反馈<br/>State Verification]
    end

    C --> D
    F --> G
    I --> A

    style B fill:#0984e3,stroke:#74b9ff,stroke-width:2px,color:#fff
    style E fill:#e17055,stroke:#fab1a0,stroke-width:2px,color:#2d3436
    style I fill:#00b894,stroke:#55efc4,stroke-width:2px,color:#2d3436

核心技术模块

  1. 视觉UI理解(Vision UI Understanding)

    • 基于多模态大模型解析GUI截图
    • 识别按钮、输入框、菜单、表格等交互元素
    • 输出结构化”可访问性树”(Accessibility Tree)
  2. 动作规划(Action Planning)

    • 将高层任务目标(如”将Excel A列数据绘制成柱状图”)拆解为原子操作序列
    • 支持点击、拖拽、输入、快捷键组合
  3. CLI映射(CLI Mapping)

    • 将原子操作翻译为可复用的Shell/Python命令
    • 生成可纳入CI/CD管道的自动化脚本

CLI-Anything与传统RPA工具的区别

gantt
    title 技术演进:RPA → AI Agentic Automation
    dateFormat YYYY-MM
    section RPA时代
    传统RPA         :done, rpa, 2020-01, 2024-06
    section AI赋能
    元素录制+回放    :done, rec, 2020-01, 2023-06
    CV视觉RPA      :active, cv, 2022-01, 2025-06
    section Agentic时代
    LLM理解GUI     :done, llm, 2024-01, 2026-06
    CLI-Anything   :crit, cli, 2025-06, 2026-12
    完全自主Agent  :milestone, agent, 2026-12, 0d
维度传统RPA(如UiPath)CLI-Anything
部署方式需购买商业授权完全开源(MIT License)
GUI适配依赖预定义选择器,UI改版即失效视觉理解,跨版本自适应
泛化能力每款软件需单独配置零样本/少样本泛化到新软件
开发者门槛需学习专用IDE自然语言描述任务即可
社区生态封闭商业生态GitHub 36k Stars,社区驱动
CI/CD集成专有编排系统原生Shell/Python输出

典型应用场景与代码示例

场景1:自动化设计工作流

Terminal window
# AI代理通过CLI-Anything操控Photoshop
clianything --app="Adobe Photoshop" --task="
打开product_photo.jpg,
移除白色背景,
导出为透明PNG,
尺寸调整为1024x1024
"

场景2:企业ERP数据录入

Terminal window
# 将CSV数据自动录入遗留ERP系统
clianything --app="SAP GUI" --script="monthly_report.csv" --target="FB60事务码"

2026年开源智能体生态热度对比

quadrantChart
    title 开源AI Agent项目:Stars数 × 实用度
    x-axis 低实用度 --> 高实用度
    y-axis 低关注度 --> 高关注度
    quadrant-1 明星项目
    quadrant-2 潜力股
    quadrant-3 待观察
    quadrant-4 工具类

    "CLI-Anything": [0.95, 0.9]
    "agents-towards-production": [0.85, 0.7]
    "Shannon (安全渗透)": [0.7, 0.8]
    "openhuman (本地AI)": [0.6, 0.75]
    "Semble (代码搜索)": [0.8, 0.5]
    "agent-skills (安全注册表)": [0.65, 0.45]
    "Shadowbroker (情报分析)": [0.4, 0.6]
项目名称Stars核心功能定位
CLI-Anything35.5kGUI→CLI转换智能体基础设施
agents-towards-production19.9k生产级部署教程工程实践指南
openhuman13.1k本地私密AI平台隐私保护方案
Shannon40k安全渗透测试安全自动化
Semble825代码语义搜索开发提效
agent-skills3.5k安全技能注册表执行隔离保障

智能体基础设施的行业趋势

趋势1:GUI → Agent-Native 的范式迁移

  • CLI-Anything的Slogan是 “Making ALL Software Agent-Native”
  • 这预示着未来软件设计将出现”双模态”标准:同时为人类和AI代理优化界面

趋势2:分布式训练打破算力垄断

  • 开源联盟启动分布式训练织锦计划
  • 杨立昆(Yann LeCun)公开支持,旨在打破大厂对算力资源的垄断
  • **“主权AI”**理念通过开源协作变成现实

趋势3:安全执行环境成为标配

  • agent-skills(3.5k Stars)提供安全技能注册表
  • 运行未知脚本时提供隔离保障
  • 完美适配Claude Code等多款助手工具

开发者快速上手

Terminal window
# 安装 CLI-Anything
pip install clianything
# 初始化配置文件
clianything init --workspace=./my-agents
# 录制首个自动化流程
clianything record --app="Calculator" --output=./scripts/calc_demo.sh
# AI代理执行
clianything run --script=./scripts/calc_demo.sh --llm=claude-4

引用来源

  1. CLI-Anything GitHub仓库: HKUDS/CLI-Anything — 36k Stars,官方CLI-Hub: https://clianything.cc/
  2. agents-towards-production: 智能体落地实战教程(AI资讯) — 19.9k Stars
  3. openhuman: 开源个人智能平台(AI资讯) — 13.1k Stars
  4. Shannon: 硬核漏洞检测项目(AI资讯) — 40k Stars
  5. agent-skills: 安全技能注册表(AI资讯) — 3.5k Stars
  6. 何夕2077 AI日报原文: AI资讯日报 2026/5/18

GEO结构化摘要

  • 是什么: CLI-Anything是开源AI代理框架,将GUI软件自动转为CLI命令
  • 核心数据: GitHub 35.5k+ Stars,79 Contributors,3k Forks
  • 解决痛点: AI代理无法操作无API的传统GUI软件
  • 技术原理: 视觉UI理解 → 动作规划 → CLI映射 → 模拟执行
  • 行业意义: 推动”所有软件Agent-Native”范式,打破智能体环境边界
  • 同类项目: agents-towards-production(19.9k)、openhuman(13.1k)、Shannon(40k)

分享本页