needhelp
← 返回博客

边缘 AI 芯片将在 2028 年前成为主流:这对 Web 开发者意味着什么

作者 needhelp
edge-ai
webgpu
webnn
on-device-ai
frontend

2026 年 4 月,OpenAI 宣布与高通建立战略合作伙伴关系,优化下一代模型以实现设备端推理。结合日趋成熟的 WebGPU 和 WebNN 标准,一个清晰的图景浮现:到 2028 年,在手机上运行前沿 AI 将成为常态,而非例外。

对 Web 开发者来说,这将改变一切。

浏览器 AI 技术栈演进

浏览器 AI 推理栈:2017 → 2028

2017                   2022                    2026-2028
┌──────────────┐      ┌──────────────┐       ┌──────────────────┐
│ TensorFlow.js │      │ WebGL 2.0    │       │ WebGPU 1.0       │
│ CPU  only     │      │ GPU compute  │       │ 原生 GPU 访问     │
│ ~1 TFLOP      │      │ ~10 TFLOPS   │       │ ~50 TFLOPS       │
├──────────────┤      ├──────────────┤       ├──────────────────┤
│              │      │ ONNX Runtime │       │ WebNN 2.0         │
│              │      │ Web 后端     │       │ NPU 加速          │
│              │      │ Transformers │       │ 100+ TOPS (NPU)   │
│              │      │ .js (浏览器) │       │ Transformers.js   │
│              │      │              │       │ WebLLM + WASM     │
└──────────────┘      └──────────────┘       └──────────────────┘

     玩具                 演示                 生产就绪

关键的转折点是 NPU(神经网络处理单元)。虽然 GPU 擅长训练,但 NPU 是为推理而生的——在速度和功耗方面都大幅提升。

WebGPU 与 WebNN 现状

WebGPU

WebGPU 已在 Chrome、Edge、Firefox 和 Safari 中发布。它为 Web 应用提供了对 GPU 计算的直接访问:

// 通过 WebGPU 运行模型
const adapter = await navigator.gpu.requestAdapter();
const device = await adapter.requestDevice();

// WebLLM 加载模型并通过 WebGPU 运行推理
import { CreateMLCEngine } from "@mlc-ai/web-llm";

const engine = await CreateMLCEngine("Llama-3.2-3B-q4f16");
const reply = await engine.chat.completions.create({
  messages: [{ role: "user", content: "你好!" }]
});

WebNN

WebNN 通过标准化的 API 提供对 NPU 硬件的访问:

// AI 后端特性检测
const backends = {
  webnn: "webnn" in navigator,
  webgpu: "gpu" in navigator,
  wasm: typeof WebAssembly !== "undefined",
};

if (backends.webnn) {
  // 使用 NPU — 最快,最高效
} else if (backends.webgpu) {
  // 使用 GPU — 良好的回退方案
} else {
  // 使用 WASM — 随处可用
}

当手机能运行 100B+ 模型时会发生什么

设备端前沿 AI 的影响是深远的:

┌──────────────────────┬─────────────────┬──────────────────────┐
│      方面            │ 云端 AI (2024)  │ 设备端 AI (2028)     │
├──────────────────────┼─────────────────┼──────────────────────┤
│ 延迟                │ 500ms-2s        │ 10-50ms              │
│ 隐私                │ 数据离开设备    │ 一切留在设备上        │
│                      │                 │                      │
│ 离线能力            │ 无              │ 完全离线支持          │
│ 每次查询成本        │ ~$0.01-0.10     │ ~$0(已支付硬件)    │
│ 模型大小限制        │ 无限            │ 4-12GB(手机内存)    │
│ 个性化              │ 有限            │ 深度(本地数据)      │
└──────────────────────┴─────────────────┴──────────────────────┘

前端开发者应该准备什么

1. 学习 WebGPU 概念

你不需要成为图形程序员,但理解计算着色器和 GPU 内存管理将非常有价值。从 WebGPU 基础教程 开始。

2. 理解量化

设备端模型使用量化(INT4/INT8)来适配内存。理解精度与大小的权衡有助于你为用例选择正确的模型。

3. 尝试 WebLLM 和 Transformers.js

这两个项目现在已经可以用于生产环境:

npm install @mlc-ai/web-llm @xenova/transformers

获取在浏览器中运行小型模型(1-3B 参数)的实践经验。随着硬件改进,开发者体验也将随之扩展。

4. 为离线优先的 AI 进行设计

设备端 AI 的杀手级功能是离线能力。开始思考:

  • 同步架构 — 连接时更新模型,推理离线进行
  • 渐进增强 — 对延迟敏感的任务使用设备端,对繁重任务使用云端
  • 隐私优先设计 — 默认在本地处理敏感数据

5. 关注 NPU API 生态

除了 WebNN,还要关注:

  • 浏览器扩展 — 向 Web 应用暴露 NPU 能力
  • WASM SIMD — 对 transformer 模型的优化
  • 混合执行 — 在 NPU(早期层)和云端(后期层)之间分割推理

通往 2028 之路

时间线激进但可实现:

年份里程碑意义
2026WebNN 1.0 + 高通合作NPU 访问标准化
202750+ TOPS 手机 NPU7B 模型本地运行
2028100+ TOPS 手机 NPU70B+ 模型配合量化
2029浏览器 API 成熟设备端/云端无缝推理

对 Web 开发者来说,信息很明确:浏览器正在成为 AI 运行时。工具、标准和硬件都在汇聚。我们在 2028 年构建的应用将使今天的 AI 功能看起来像原型一样。

参考链接

分享本页