主流AI模型在Meta地狱级编程评测中全军覆没

2026 年 5 月 7 日，Meta AI Research 向机器学习社区投下了一枚重磅炸弹。他们最新发布的 ProgramBench 评测基准——一个旨在衡量真实软件工程能力而非玩具级编程题的数据集——产生了一个令人震惊的结果，正在重塑整个关于 AI 与编程未来的讨论：所有主流 AI 模型全部得了零分。

不是低分，不是令人失望的分数，而是评测中最具价值类别上的绝对零分：架构级模块重建。

ProgramBench 评测结果

什么是 ProgramBench？

ProgramBench 并非又一个 LeetCode 仿制品。Meta 的研究人员刻意设计它来衡量所谓的”工程智能”（Engineering Intelligence）——即理解、重构和重建整个模块级软件的能力，而非仅仅完成单个函数。该评测基准包含三个层次：

第一层 — 函数补全（FC）： 给定函数签名和文档字符串，补全函数体。这反映的是 Copilot 和 ChatGPT 日常处理的自动补全类任务。
第二层 — 模块重建（MR）： 给定一个部分删减的多文件代码库（模块结构、导入关系和接口定义保持完整），重建缺失的实现部分。这需要理解架构模式、依赖关系图和横切关注点。
第三层 — 系统设计规划（SDP）： 根据高层规格说明，生成一致的模块分解方案、接口定义和依赖关系规划。这是真正的架构工作。

模型在第一层的表现尚可。Claude Opus 4.7 在函数补全上达到了 78% 的准确率，GPT-5.5 为 74%。即便是 DeepSeek-V3 这样的开源模型也取得了 60%–70% 的可观分数。

第三层的成绩则大幅下滑。GPT-5.5 在系统设计规划上仅得 23%，Claude Opus 4.7 为 31%。但这些数字虽然糟糕，却并非头条新闻。

第二层——模块重建——才是所有模型全部翻车的致命关卡。

震惊业界的零分

客观事实是：当面对一个部分删减的多文件代码库、需要补全缺失组件时，没有任何模型——从 GPT-5.5 到 Claude Opus 4.7，从 Gemini 2.5 Pro 到 DeepSeek-V3——能够在整个评测套件中给出哪怕一个正确答案。

评测层级	GPT-5.5	Claude Opus 4.7	Gemini 2.5 Pro	DeepSeek-V3	Llama 4
函数补全	74%	78%	71%	67%	62%
模块重建	0%	0%	0%	0%	0%
系统设计规划	23%	31%	19%	14%	9%

数据来源：Meta AI Research，ProgramBench 技术报告（2026 年 5 月）

这些模块重建任务并非晦涩难懂的边缘案例。它们涉及的都是真实世界的常见模式：带重试逻辑和熔断机制的限流 API 客户端、具有多级缓存失效策略的缓存层、包含补偿事务的事件溯源领域模型。这些恰恰是中级软件工程师每天都在设计和实现的那种组件。

模型为什么彻底失败？

失败的模式极具启发性。模型并没有产生语法错误或明显有问题的代码。它们生成了看起来合理但架构层面完全错误的代码——这些代码可以编译、运行，乍一看似乎正确，但实际上违反了基本的设计不变量，在解耦组件之间引入了隐性耦合，并完全忽视了错误传播、事务边界和一致性保证等横切关注点。

这揭示了一个关于当前大语言模型工作原理的深层真相。它们是在局部上下文窗口上训练的模式匹配器——擅长补全函数的后续几行代码，但根本无法推理这些代码行如何融入一个由相互连接的组件所组成的系统。代码库不是一串 token 序列，而是一个由依赖关系、约束和不变量构成的图。当前的技术架构无法对这种图进行建模。

Meta 的研究人员提出了一个精准的区分：模型拥有语法智能（产生格式良好代码的能力），但缺乏架构智能（产生架构良好系统的能力）。两者之间的鸿沟是巨大的。

工程智能：下一个前沿阵地

“工程智能”（Engineering Intelligence）这一术语正在实际讨论中逐渐取代”AGI”成为新的焦点。它的核心不在于模型能否写出递归斐波那契函数或解决一道动态规划题——每个主流模型几年前就跨过了那道门槛。工程智能关乎模型是否能够：

理解某个抽象在代码库中为什么存在
意识到一个模块的变更会在另一个模块中破坏哪些不变量
设计出在真实世界约束下可维护、可测试、具备韧性的系统
在性能、清晰度和正确性之间做出权衡决策

ProgramBench 表明，今天没有任何模型具备哪怕是最初级的工程智能。它们是加速工具——写样板代码、生成测试用例、解释代码——但无法将软件作为一个系统来理解。

这对软件工程师意味着什么

对于数以百万计既兴奋又焦虑地注视着 AI 革命的开发者而言，ProgramBench 提供了一个明确的数据支撑。AI 不会夺走你的工作——不会夺走那种需要架构思维、设计权衡和确保系统在所有条件下正确运行的工作。AI 所替代的是技能分布的底端：那些曾经需要初级开发人员敲出数百行样板代码的任务，如今几秒钟就能完成。

软件工程师的工作正在向其本质回归：设计系统，而非敲代码。敲代码从来都不是难的那部分。ProgramBench 只不过以最严谨的方式证明了这一点。

接下来的竞赛，是谁能率先构建出一个在模块重建上得分超过零的模型。谁能攻克这个难题，就不仅仅是造出了一款更好的代码补全引擎——而是造出了一台真正能够 工程化软件 的机器。