Karpathy 的 AI 输出进化路线图：从文本到神经元视频

前 Tesla AI 总监、OpenAI 创始成员 Andrej Karpathy 本周发布了一条获得 1.3 万点赞的长帖，描绘了一条令人信服的 AI-人类交互进化路线图。核心论点：音频是人类偏好的 AI 输入方式，但视觉（图片/动画/视频）才是 AI 偏好的输出方式——人类大脑约 1/3 是视觉处理皮层，这是信息进入大脑的”10 车道高速路”。

AI 输出的五个（或六个、N 个）阶段

阶段 1：纯文本

“难以阅读，认知负荷大。” GPT-2 时代的输出形式——需要脑力解析的无格式文字墙。

阶段 2：Markdown ← 当前默认

粗体、斜体、标题、表格。“稍微舒适一点。” ChatGPT、Claude、Gemini 都在用 Markdown 输出——比纯文本好，但仍是代码生成的，而非真正视觉化的。

阶段 3：HTML ← 早期但正在形成

“仍是过程式的，但在图形、布局甚至交互性上有更多灵活性。” Karpathy 建议让 LLM “以 HTML 格式输出”并在浏览器中查看，甚至可以要求做成幻灯片、交互式仪表盘。我们现在就处于这个阶段。

阶段 4：交互式神经视频

由扩散神经网络直接生成的交互式视频——不是视频文件，而是实时渲染的视觉体验，能响应用户交互。融合”Software 1.0”（过程逻辑）与神经产物（扩散网格、生成式视觉）。

阶段 N：完全的脑机融合

Karpathy 承认这是最终目的地但还早——Neuralink 式的脑机接口。关键在于：在此之前还有大量的进步空间。

为什么重要

信息密度由输出格式决定。 表格比段落传递更多信息。图表比表格更多。交互式可视化比静态图表更多。模拟比所有上述都多。当前 AI 主要用 Markdown 输出，本质上浪费了人类大脑 30% 的视觉处理能力。

对产品构建者的启示：

“以 HTML 输出”这个 Prompt 本身就是一个产品原语，不是 hack
浏览器正在从文档查看器变成 AI 渲染面——竞争不再是模型基准分，而是输出体验
未来”阅读”AI 输出会变成”观看”AI 输出——先连上视觉通道的赢

需要警惕：神经视频生成的延迟问题尚未解决；扩散模型的非确定性使交互式模拟极难；视觉输出比文本更难核查事实——一张幻觉图表和真实图表看起来一样可信。

总结：Karpathy 的帖子之所以珍贵，是因为它来自一个既有技术深度又有产品直觉的人。对于任何构建 AI 产品的人，核心信息是：输出表面是下一个前沿。 模型能力正在趋同，差异化将来自 AI 呈现信息的方式——浏览器而非聊天窗口，将决定这场战争的胜负。