La hoja de ruta de Karpathy: cómo la salida de la IA evolucionará del texto al video neuronal
Andrej Karpathy publicó un hilo con 13K likes trazando la evolución de la interacción humano-IA. Su tesis: el audio es la entrada preferida, pero la visión es la salida preferida — ~1/3 de nuestro cerebro está dedicado al procesamiento visual.
Las etapas de la salida de IA:
- Texto plano — “Difícil de leer”, era GPT-2
- Markdown ← Actual. ChatGPT/Claude/Gemini lo usan, pero sigue siendo procedural
- HTML ← Emergente. Karpathy recomienda pedir al LLM “estructura tu respuesta como HTML” y verla en el navegador. Funciona para diapositivas, dashboards interactivos. Estamos aquí ahora.
- Video neuronal interactivo — Renderizado en tiempo real por redes de difusión, respondiendo a la interacción del usuario. Híbrido de lógica procedimental (Software 1.0) + visuales generativos
- Fusión cerebro-máquina — Neuralink, lejano
Por qué importa: la densidad de información depende del formato de salida. Una tabla comunica más que un párrafo. Un gráfico más que una tabla. Una simulación más que todo lo anterior. La IA actual desperdicia el 30% de capacidad visual del cerebro humano.
Para builders: 1) El prompt “output as HTML” es un primitivo de producto, no un hack. 2) El navegador se convierte en la superficie de renderizado de IA. 3) La diferenciación futura no estará en benchmarks sino en experiencia de salida.
Escepticismo: latencia de video neuronal, no-determinismo de difusión, confianza en outputs visuales (un gráfico alucinado parece tan real como uno verdadero).