边缘 AI 芯片将在 2028 年前成为主流:这对 Web 开发者意味着什么
作者 needhelp
edge-ai
webgpu
webnn
on-device-ai
frontend
2026 年 4 月,OpenAI 宣布与高通建立战略合作伙伴关系,优化下一代模型以实现设备端推理。结合日趋成熟的 WebGPU 和 WebNN 标准,一个清晰的图景浮现:到 2028 年,在手机上运行前沿 AI 将成为常态,而非例外。
对 Web 开发者来说,这将改变一切。
浏览器 AI 技术栈演进
浏览器 AI 推理栈:2017 → 2028
2017 2022 2026-2028
┌──────────────┐ ┌──────────────┐ ┌──────────────────┐
│ TensorFlow.js │ │ WebGL 2.0 │ │ WebGPU 1.0 │
│ CPU only │ │ GPU compute │ │ 原生 GPU 访问 │
│ ~1 TFLOP │ │ ~10 TFLOPS │ │ ~50 TFLOPS │
├──────────────┤ ├──────────────┤ ├──────────────────┤
│ │ │ ONNX Runtime │ │ WebNN 2.0 │
│ │ │ Web 后端 │ │ NPU 加速 │
│ │ │ Transformers │ │ 100+ TOPS (NPU) │
│ │ │ .js (浏览器) │ │ Transformers.js │
│ │ │ │ │ WebLLM + WASM │
└──────────────┘ └──────────────┘ └──────────────────┘
玩具 演示 生产就绪
关键的转折点是 NPU(神经网络处理单元)。虽然 GPU 擅长训练,但 NPU 是为推理而生的——在速度和功耗方面都大幅提升。
WebGPU 与 WebNN 现状
WebGPU
WebGPU 已在 Chrome、Edge、Firefox 和 Safari 中发布。它为 Web 应用提供了对 GPU 计算的直接访问:
// 通过 WebGPU 运行模型
const adapter = await navigator.gpu.requestAdapter();
const device = await adapter.requestDevice();
// WebLLM 加载模型并通过 WebGPU 运行推理
import { CreateMLCEngine } from "@mlc-ai/web-llm";
const engine = await CreateMLCEngine("Llama-3.2-3B-q4f16");
const reply = await engine.chat.completions.create({
messages: [{ role: "user", content: "你好!" }]
});
WebNN
WebNN 通过标准化的 API 提供对 NPU 硬件的访问:
// AI 后端特性检测
const backends = {
webnn: "webnn" in navigator,
webgpu: "gpu" in navigator,
wasm: typeof WebAssembly !== "undefined",
};
if (backends.webnn) {
// 使用 NPU — 最快,最高效
} else if (backends.webgpu) {
// 使用 GPU — 良好的回退方案
} else {
// 使用 WASM — 随处可用
}
当手机能运行 100B+ 模型时会发生什么
设备端前沿 AI 的影响是深远的:
┌──────────────────────┬─────────────────┬──────────────────────┐
│ 方面 │ 云端 AI (2024) │ 设备端 AI (2028) │
├──────────────────────┼─────────────────┼──────────────────────┤
│ 延迟 │ 500ms-2s │ 10-50ms │
│ 隐私 │ 数据离开设备 │ 一切留在设备上 │
│ │ │ │
│ 离线能力 │ 无 │ 完全离线支持 │
│ 每次查询成本 │ ~$0.01-0.10 │ ~$0(已支付硬件) │
│ 模型大小限制 │ 无限 │ 4-12GB(手机内存) │
│ 个性化 │ 有限 │ 深度(本地数据) │
└──────────────────────┴─────────────────┴──────────────────────┘
前端开发者应该准备什么
1. 学习 WebGPU 概念
你不需要成为图形程序员,但理解计算着色器和 GPU 内存管理将非常有价值。从 WebGPU 基础教程 开始。
2. 理解量化
设备端模型使用量化(INT4/INT8)来适配内存。理解精度与大小的权衡有助于你为用例选择正确的模型。
3. 尝试 WebLLM 和 Transformers.js
这两个项目现在已经可以用于生产环境:
npm install @mlc-ai/web-llm @xenova/transformers
获取在浏览器中运行小型模型(1-3B 参数)的实践经验。随着硬件改进,开发者体验也将随之扩展。
4. 为离线优先的 AI 进行设计
设备端 AI 的杀手级功能是离线能力。开始思考:
- 同步架构 — 连接时更新模型,推理离线进行
- 渐进增强 — 对延迟敏感的任务使用设备端,对繁重任务使用云端
- 隐私优先设计 — 默认在本地处理敏感数据
5. 关注 NPU API 生态
除了 WebNN,还要关注:
- 浏览器扩展 — 向 Web 应用暴露 NPU 能力
- WASM SIMD — 对 transformer 模型的优化
- 混合执行 — 在 NPU(早期层)和云端(后期层)之间分割推理
通往 2028 之路
时间线激进但可实现:
| 年份 | 里程碑 | 意义 |
|---|---|---|
| 2026 | WebNN 1.0 + 高通合作 | NPU 访问标准化 |
| 2027 | 50+ TOPS 手机 NPU | 7B 模型本地运行 |
| 2028 | 100+ TOPS 手机 NPU | 70B+ 模型配合量化 |
| 2029 | 浏览器 API 成熟 | 设备端/云端无缝推理 |
对 Web 开发者来说,信息很明确:浏览器正在成为 AI 运行时。工具、标准和硬件都在汇聚。我们在 2028 年构建的应用将使今天的 AI 功能看起来像原型一样。