Karpathys Roadmap: Wie sich KI-Ausgabe von Text zu neuronalem Video entwickeln wird
Andrej Karpathy veröffentlichte einen Thread mit 13K Likes, der die Evolution der KI-Mensch-Interaktion kartiert. These: Audio ist die bevorzugte Eingabe, aber Vision die bevorzugte Ausgabe — ~1/3 unseres Gehirns ist der visuellen Verarbeitung gewidmet.
Die 5 Stufen: 1) Rohtext 2) Markdown ← aktuell 3) HTML ← entstehend. Karpathy empfiehlt: “strukturiere deine Antwort als HTML”. Funktioniert für Diashows und Dashboards. 4) Interaktives neuronales Video — Echtzeit-Rendering durch Diffusionsnetze 5) Vollständige Gehirn-Computer-Fusion (Neuralink, fern).
Warum wichtig: Informationsdichte hängt vom Ausgabeformat ab. Aktuelle KI verschwendet 30% der visuellen Verarbeitungskapazität des Gehirns. Für Builder: 1) “HTML-Ausgabe” ist ein Produkt-Primitiv 2) Der Browser wird zur KI-Rendering-Oberfläche 3) Zukünftige Differenzierung liegt im Ausgabeerlebnis.
Skepsis: Latenz neuronaler Videos, Nicht-Determinismus von Diffusionsmodellen, Vertrauen in visuelle Ausgaben.