World Models: la IA que predice el mundo físico

TL;DR

World Models predicen estados físicos del mundo, no palabras (como los LLMs)
V-JEPA aprende de video: oculta partes y predice representaciones abstractas, no píxeles
Resultados: state of the art en anticipación de acciones, desplegado en robots reales
La apuesta de LeCun: combinar LLMs (lenguaje) con World Models (física) para AGI

El problema de los LLMs

Los modelos de lenguaje actuales (GPT, Claude, Llama) hacen una cosa muy bien: predecir la siguiente palabra.

Input: "El cielo es..."
Output: "azul" (probabilidad alta)

Funcionan. Impresionan. Pero tienen un problema fundamental: no entienden el mundo físico.

Si le preguntas a un LLM “¿qué pasa si suelto una pelota?”, sabe que “cae” porque ha leído millones de textos que lo dicen. No porque entienda la gravedad.

Yann LeCun lo resume así:

“Un gato doméstico tiene más sentido común que GPT-4.”

Un gato sabe que si empuja un vaso, cae. No porque haya leído sobre física. Porque ha visto cosas caer.

Qué es un World Model

Un World Model es un sistema de IA que construye una representación interna de cómo funciona el mundo físico.

En vez de predecir palabras, predice estados del mundo:

LLM	World Model
”¿Qué palabra viene después?"	"¿Qué pasa después en este video?”
Aprende de texto	Aprende de video/imágenes
Predice tokens	Predice estados físicos
Entiende lenguaje	Entiende causalidad

La idea no es nueva. En 2018, Ha y Schmidhuber publicaron “World Models”, donde una IA aprendía a jugar videojuegos construyendo un modelo interno del juego.

Lo nuevo es aplicarlo a escala con video real del mundo.

V-JEPA: el World Model de Meta

V-JEPA (Video Joint Embedding Predictive Architecture) es el World Model que LeCun desarrolló en Meta antes de irse.

Cómo funciona

1. Toma video como input

No texto. Video real del mundo físico: gente caminando, objetos cayendo, manos manipulando cosas.

2. Divide el video en “parches”

Como un transformer divide texto en tokens, V-JEPA divide frames en parches espaciotemporales llamados “tubelets”.

3. Oculta partes del video

Literalmente tapa regiones del video. “No puedes ver qué pasa aquí.”

4. Predice las partes ocultas

Pero NO predice los píxeles exactos. Predice una representación abstracta de lo que debería haber.

Video: [persona levanta brazo] [███████] [brazo arriba]
                                ↑
                    ¿Qué debería haber aquí?

V-JEPA predice: "movimiento de brazo hacia arriba"
(no los píxeles exactos, sino el concepto)

Por qué representaciones y no píxeles

Aquí está el truco clave.

Predecir píxeles es inútil:

El mundo tiene detalles impredecibles (hojas moviéndose, reflejos, ruido)
Forzar al modelo a predecir esos detalles desperdicia capacidad
Resultados borrosos que no sirven para nada

Predecir representaciones abstractas:

El modelo aprende estructura y causalidad
Ignora detalles irrelevantes
Captura “qué está pasando”, no “cómo se ve exactamente”

Es como la diferencia entre:

“La pelota bajó 2.3 metros en 0.7 segundos” (píxeles)
“La pelota cayó” (representación abstracta)

La arquitectura JEPA

JEPA = Joint Embedding Predictive Architecture

┌─────────────────────────────────────────────┐
│                                             │
│   Video Input                               │
│       │                                     │
│       ▼                                     │
│   ┌───────┐     ┌───────┐                  │
│   │Encoder│     │Encoder│  (mismo encoder) │
│   └───┬───┘     └───┬───┘                  │
│       │             │                       │
│       ▼             ▼                       │
│   ┌───────┐     ┌───────┐                  │
│   │Context│     │ Target│  (partes ocultas)│
│   │Embeddings│  │Embeddings│               │
│   └───┬───┘     └───────┘                  │
│       │             ▲                       │
│       ▼             │                       │
│   ┌───────┐         │                       │
│   │Predictor│───────┘                      │
│   └───────┘                                │
│                                             │
│   Objetivo: que la predicción              │
│   coincida con el target                   │
└─────────────────────────────────────────────┘

Encoder: Convierte video en representaciones abstractas Predictor: Dado el contexto, predice las representaciones de las partes ocultas Objetivo: Que la predicción coincida con la representación real

V-JEPA 2: resultados

Meta publicó V-JEPA 2 en 2025. Los resultados:

Entrenamiento:

1 millón de horas de video de internet
1 millón de imágenes
Sin etiquetas humanas (self-supervised)

Benchmarks:

77.3% en Something-Something v2 (entender acciones)
39.7% en Epic-Kitchens-100 (anticipar acciones) - state of the art
84.0% en PerceptionTest (video QA) - state of the art a 8B

Robótica:

Entrenado con solo 62 horas de video de robots
Desplegado en brazos robóticos reales
Capaz de pick-and-place sin entrenamiento específico

El modelo nunca vio esos robots ni esos objetos. Pero entiende física lo suficiente para planificar acciones.

Por qué importa para robótica

Los robots actuales se programan con reglas explícitas:

if objeto_detectado:
    mover_brazo(x, y, z)
    cerrar_pinza()
    levantar()

Esto es frágil. Cualquier variación rompe el sistema.

Con World Models, el robot puede:

Ver la situación
Imaginar qué pasa si hace diferentes acciones
Elegir la acción que lleva al estado deseado

No necesita reglas explícitas. Entiende causa y efecto.

Las limitaciones (todavía)

V-JEPA 2 funciona bien para:

Videos cortos (hasta ~10 segundos)
Acciones simples (pick and place)
Entornos controlados

Todavía no puede:

Planificar a largo plazo (minutos, horas)
Razonar sobre situaciones completamente nuevas
Combinar lenguaje y video de forma fluida

LeCun estima que faltan “unos pocos años” para versiones completas.

AMI Labs: el siguiente paso

La startup de LeCun, AMI Labs, continuará este trabajo fuera de Meta.

Objetivos:

Sistemas que entienden el mundo físico
Memoria persistente (recordar contexto largo)
Planificación de acciones complejas
Razonamiento causal

“El objetivo es traer la próxima gran revolución en IA: sistemas que entiendan el mundo físico, tengan memoria persistente, puedan razonar y planificar secuencias de acciones complejas.”

Mi opinión

Los World Models son una apuesta arriesgada contra el consenso actual.

El consenso dice: “escala LLMs, añade más datos, añade más compute, eventualmente emergerá inteligencia”. Este es el enfoque que ha llevado a la burbuja de 7 billones en IA.

LeCun dice: “no, necesitas una arquitectura diferente que entienda el mundo físico”.

¿Quién tiene razón? Probablemente ambos tienen parte de razón:

Los LLMs son brutales para lenguaje y conocimiento
Los World Models podrían ser brutales para física y planificación
El futuro probablemente combine ambos

Lo interesante es que ahora hay una alternativa seria, bien financiada, liderada por alguien con track record probado.

Y eso es bueno para todos. Competencia de ideas es lo que hace avanzar la ciencia.