On-premise is back: por qué las empresas huyen del cloud de IA

Después de años de “todo al cloud”, las organizaciones descubren que quizás no quieren que sus datos viajen a servidores ajenos. Quién lo iba a decir.

Durante una década nos vendieron que el futuro era el cloud. Que tener servidores propios era cosa de dinosaurios. Que la escalabilidad infinita justificaba cualquier coste. Que preocuparse por dónde estaban físicamente tus datos era de

Y ahora, en 2026, estamos viendo el movimiento contrario. Empresas que apostaron todo al cloud están trayendo cargas de trabajo de vuelta. Especialmente las de IA.

¿Qué ha cambiado?

Los tres motivos del éxodo

1. La factura se desmadró

Usar la API de OpenAI para un prototipo es barato. Usarla para procesar millones de peticiones al día es otra historia.

He visto empresas que empezaron pagando 500€ al mes en APIs de LLM y acabaron con facturas de 50.000€. Y lo peor: el coste es impredecible. Depende del volumen, de la longitud de los prompts, del modelo que uses. Presupuestar es casi imposible.

Con un modelo corriendo en tu propio servidor, el coste es fijo. Pagas el hardware (o el alquiler del servidor) y la electricidad. Sabes exactamente cuánto te va a costar el mes que viene.

2. Tus datos no son tuyos

Cuando usas la API de OpenAI, tus prompts viajan a sus servidores. Sí, tienen políticas de privacidad. Sí, dicen que no entrenan con tus datos (si pagas). Pero al final del día, tu información confidencial está en infraestructura que no controlas.

Para muchas industrias esto es inaceptable. Sanidad, finanzas, legal, defensa… tienen requisitos regulatorios que hacen imposible (o muy arriesgado) usar clouds externos para datos sensibles.

Pero incluso empresas sin requisitos legales estrictos están reconsiderando. ¿De verdad quieres que las conversaciones internas de tu empresa, tus documentos estratégicos, tus datos de clientes pasen por servidores de una empresa americana?

3. Soberanía tecnológica

Este es el motivo más abstracto pero quizás el más importante a largo plazo. Depender de la infraestructura de tres empresas americanas (OpenAI, Google, Microsoft) para tu capacidad de IA es un riesgo estratégico.

¿Qué pasa si cambian los precios? ¿Si cambian los términos de servicio? ¿Si hay restricciones geopolíticas? ¿Si simplemente deciden que tu caso de uso ya no les interesa?

L’Oréal no quiso correr ese riesgo. Construyeron L’Oréal GPT, su propia plataforma de IA interna. No porque no pudieran pagar el cloud, sino porque querían control.

DeepSeek ha demostrado que se puede conseguir rendimiento de nivel frontier con modelos open source. Eso cambia el cálculo completamente.

Las herramientas que lo hacen posible

Hace dos años, correr un LLM decente en tu propio servidor era un infierno. Necesitabas GPUs carísimas, conocimientos profundos de ML, y aún así el rendimiento era mediocre.

Eso ha cambiado radicalmente.

Ollama es probablemente la forma más fácil de correr modelos localmente. Instalas, descargas el modelo que quieras (Llama, Mistral, Phi, DeepSeek…), y tienes una API local funcionando en minutos. Literalmente minutos.

vLLM es para cuando necesitas rendimiento serio. Optimiza la inferencia para servir múltiples peticiones en paralelo con latencia baja. Es lo que usan muchas empresas en producción.

llama.cpp permite correr modelos en hardware modesto, incluyendo CPUs sin GPU dedicada. El rendimiento no es espectacular, pero funciona.

LocalAI ofrece una API compatible con OpenAI pero corriendo localmente. Puedes migrar aplicaciones que usan la API de OpenAI sin cambiar código.

Y los modelos open source han mejorado brutalmente. Llama 3, Mistral, Phi-3, DeepSeek… ya no son “el primito pobre” de GPT-5. Para muchos casos de uso, son más que suficientes.

El setup realista

¿Qué necesitas para correr IA on-premise de verdad?

Para experimentar o uso personal: Un ordenador con 16GB de RAM puede correr modelos pequeños (7B parámetros) con Ollama. Lento pero funcional.

Para un equipo pequeño: Un servidor con una GPU tipo RTX 3090/4090 (24GB VRAM) puede servir modelos de 13-30B parámetros con rendimiento decente. Coste: 2.000-3.000€ de hardware.

Para producción seria: Múltiples GPUs enterprise (A100, H100) o servicios de GPU en cloud privado. Aquí hablamos de inversiones serias, pero el ROI frente a APIs puede ser brutal si tienes volumen.

La opción híbrida: Muchas empresas están optando por un modelo mixto. Datos sensibles y cargas predecibles on-premise. Picos de demanda y experimentación en cloud. Lo mejor de ambos mundos.

Lo que nadie te cuenta

Correr IA on-premise no es gratis en esfuerzo. Necesitas:

Alguien que mantenga la infraestructura
Actualizaciones de modelos y seguridad
Monitorización de rendimiento
Gestión de capacidad

Si eres una startup de 5 personas, probablemente el cloud siga siendo la mejor opción. El coste de oportunidad de montar y mantener infraestructura es demasiado alto.

Pero si tienes equipo de IT, volumen predecible, y datos que no quieres que salgan de tu red… el cálculo ha cambiado.

Si estás evaluando esta decisión para tu empresa, te recomiendo leer primero lo que nadie te cuenta de implementar IA en una PYME. Los costes ocultos aplican también aquí.

Mi experiencia

Llevo meses corriendo Ollama en un VPS para tareas personales y experimentos. El coste es fijo (lo que pago de servidor), la latencia es buena, y tengo control total.

Para NeuralFlow, uso una combinación: Claude Opus 4.5 y GPT-5 para tareas complejas donde el rendimiento importa, modelos locales para procesamiento en batch y experimentación.

No es dogma. Es pragmatismo. Cada herramienta para lo que mejor hace. No soy fanboy de ningún modelo.

El futuro híbrido

No creo que volvamos a un mundo 100% on-premise. El cloud tiene ventajas reales: escalabilidad, mantenimiento delegado, acceso a modelos frontier que no puedes correr localmente.

Pero el péndulo se está moviendo. Después de años de “todo al cloud”, las empresas están redescubriendo el valor de controlar su infraestructura.

La respuesta correcta, como casi siempre, está en el medio. Saber qué poner dónde, y por qué, es la habilidad que va a definir a los buenos arquitectos de IA en los próximos años.

¿Has montado infraestructura de IA on-premise? ¿Qué herramientas usas? Comparte tu experiencia.