Karpathy 的 AI 输出进化路线图:从文本到神经元视频
前 Tesla AI 总监、OpenAI 创始成员 Andrej Karpathy 本周发布了一条获得 1.3 万点赞的长帖,描绘了一条令人信服的 AI-人类交互进化路线图。核心论点:音频是人类偏好的 AI 输入方式,但视觉(图片/动画/视频)才是 AI 偏好的输出方式——人类大脑约 1/3 是视觉处理皮层,这是信息进入大脑的”10 车道高速路”。
AI 输出的五个(或六个、N 个)阶段
阶段 1:纯文本
“难以阅读,认知负荷大。” GPT-2 时代的输出形式——需要脑力解析的无格式文字墙。
阶段 2:Markdown ← 当前默认
粗体、斜体、标题、表格。“稍微舒适一点。” ChatGPT、Claude、Gemini 都在用 Markdown 输出——比纯文本好,但仍是代码生成的,而非真正视觉化的。
阶段 3:HTML ← 早期但正在形成
“仍是过程式的,但在图形、布局甚至交互性上有更多灵活性。” Karpathy 建议让 LLM “以 HTML 格式输出”并在浏览器中查看,甚至可以要求做成幻灯片、交互式仪表盘。我们现在就处于这个阶段。
阶段 4:交互式神经视频
由扩散神经网络直接生成的交互式视频——不是视频文件,而是实时渲染的视觉体验,能响应用户交互。融合”Software 1.0”(过程逻辑)与神经产物(扩散网格、生成式视觉)。
阶段 N:完全的脑机融合
Karpathy 承认这是最终目的地但还早——Neuralink 式的脑机接口。关键在于:在此之前还有大量的进步空间。
为什么重要
信息密度由输出格式决定。 表格比段落传递更多信息。图表比表格更多。交互式可视化比静态图表更多。模拟比所有上述都多。当前 AI 主要用 Markdown 输出,本质上浪费了人类大脑 30% 的视觉处理能力。
对产品构建者的启示:
- “以 HTML 输出”这个 Prompt 本身就是一个产品原语,不是 hack
- 浏览器正在从文档查看器变成 AI 渲染面——竞争不再是模型基准分,而是输出体验
- 未来”阅读”AI 输出会变成”观看”AI 输出——先连上视觉通道的赢
需要警惕:神经视频生成的延迟问题尚未解决;扩散模型的非确定性使交互式模拟极难;视觉输出比文本更难核查事实——一张幻觉图表和真实图表看起来一样可信。
总结:Karpathy 的帖子之所以珍贵,是因为它来自一个既有技术深度又有产品直觉的人。对于任何构建 AI 产品的人,核心信息是:输出表面是下一个前沿。 模型能力正在趋同,差异化将来自 AI 呈现信息的方式——浏览器而非聊天窗口,将决定这场战争的胜负。