边缘 AI 芯片将在 2028 年前成为主流：这对 Web 开发者意味着什么

2026 年 4 月，OpenAI 宣布与高通建立战略合作伙伴关系，优化下一代模型以实现设备端推理。结合日趋成熟的 WebGPU 和 WebNN 标准，一个清晰的图景浮现：到 2028 年，在手机上运行前沿 AI 将成为常态，而非例外。

对 Web 开发者来说，这将改变一切。

浏览器 AI 技术栈演进

浏览器 AI 推理栈：2017 → 2028

2017                   2022                    2026-2028
┌──────────────┐      ┌──────────────┐       ┌──────────────────┐
│ TensorFlow.js │      │ WebGL 2.0    │       │ WebGPU 1.0       │
│ CPU  only     │      │ GPU compute  │       │ 原生 GPU 访问     │
│ ~1 TFLOP      │      │ ~10 TFLOPS   │       │ ~50 TFLOPS       │
├──────────────┤      ├──────────────┤       ├──────────────────┤
│              │      │ ONNX Runtime │       │ WebNN 2.0         │
│              │      │ Web 后端     │       │ NPU 加速          │
│              │      │ Transformers │       │ 100+ TOPS (NPU)   │
│              │      │ .js (浏览器) │       │ Transformers.js   │
│              │      │              │       │ WebLLM + WASM     │
└──────────────┘      └──────────────┘       └──────────────────┘

     玩具                 演示                 生产就绪

关键的转折点是 NPU（神经网络处理单元）。虽然 GPU 擅长训练，但 NPU 是为推理而生的——在速度和功耗方面都大幅提升。

WebGPU 与 WebNN 现状

WebGPU

WebGPU 已在 Chrome、Edge、Firefox 和 Safari 中发布。它为 Web 应用提供了对 GPU 计算的直接访问：

// 通过 WebGPU 运行模型
const adapter = await navigator.gpu.requestAdapter();
const device = await adapter.requestDevice();

// WebLLM 加载模型并通过 WebGPU 运行推理
import { CreateMLCEngine } from "@mlc-ai/web-llm";

const engine = await CreateMLCEngine("Llama-3.2-3B-q4f16");
const reply = await engine.chat.completions.create({
  messages: [{ role: "user", content: "你好！" }]
});

WebNN

WebNN 通过标准化的 API 提供对 NPU 硬件的访问：

// AI 后端特性检测
const backends = {
  webnn: "webnn" in navigator,
  webgpu: "gpu" in navigator,
  wasm: typeof WebAssembly !== "undefined",
};

if (backends.webnn) {
  // 使用 NPU — 最快，最高效
} else if (backends.webgpu) {
  // 使用 GPU — 良好的回退方案
} else {
  // 使用 WASM — 随处可用
}

当手机能运行 100B+ 模型时会发生什么

设备端前沿 AI 的影响是深远的：

┌──────────────────────┬─────────────────┬──────────────────────┐
│      方面            │ 云端 AI (2024)  │ 设备端 AI (2028)     │
├──────────────────────┼─────────────────┼──────────────────────┤
│ 延迟                │ 500ms-2s        │ 10-50ms              │
│ 隐私                │ 数据离开设备    │ 一切留在设备上        │
│                      │                 │                      │
│ 离线能力            │ 无              │ 完全离线支持          │
│ 每次查询成本        │ ~$0.01-0.10     │ ~$0（已支付硬件）    │
│ 模型大小限制        │ 无限            │ 4-12GB（手机内存）    │
│ 个性化              │ 有限            │ 深度（本地数据）      │
└──────────────────────┴─────────────────┴──────────────────────┘

前端开发者应该准备什么

1. 学习 WebGPU 概念

你不需要成为图形程序员，但理解计算着色器和 GPU 内存管理将非常有价值。从 WebGPU 基础教程开始。

2. 理解量化

设备端模型使用量化（INT4/INT8）来适配内存。理解精度与大小的权衡有助于你为用例选择正确的模型。

3. 尝试 WebLLM 和 Transformers.js

这两个项目现在已经可以用于生产环境：

npm install @mlc-ai/web-llm @xenova/transformers

获取在浏览器中运行小型模型（1-3B 参数）的实践经验。随着硬件改进，开发者体验也将随之扩展。

4. 为离线优先的 AI 进行设计

设备端 AI 的杀手级功能是离线能力。开始思考：

同步架构 — 连接时更新模型，推理离线进行
渐进增强 — 对延迟敏感的任务使用设备端，对繁重任务使用云端
隐私优先设计 — 默认在本地处理敏感数据

5. 关注 NPU API 生态

除了 WebNN，还要关注：

浏览器扩展 — 向 Web 应用暴露 NPU 能力
WASM SIMD — 对 transformer 模型的优化
混合执行 — 在 NPU（早期层）和云端（后期层）之间分割推理

通往 2028 之路

时间线激进但可实现：

年份	里程碑	意义
2026	WebNN 1.0 + 高通合作	NPU 访问标准化
2027	50+ TOPS 手机 NPU	7B 模型本地运行
2028	100+ TOPS 手机 NPU	70B+ 模型配合量化
2029	浏览器 API 成熟	设备端/云端无缝推理

对 Web 开发者来说，信息很明确：浏览器正在成为 AI 运行时。工具、标准和硬件都在汇聚。我们在 2028 年构建的应用将使今天的 AI 功能看起来像原型一样。