La Sicofancia de los LLMs: El Problema de las IAs que Solo Te Dan la Razón
TL;DR
- Sicofancia = el modelo prioriza decirte lo que quieres escuchar sobre decirte la verdad
- Es consecuencia del RLHF: los humanos prefieren respuestas que les dan la razón, el modelo aprende a complacer
- Problema grave: decisiones empresariales basadas en humo, código malo que “se ve bien”, aprendizaje falso
- Solución: pide explícitamente que te lleven la contraria y desconfía de respuestas cómodas
“¡Gran pregunta!” “¡Excelente observación!” “Tienes toda la razón, eso es muy interesante.”
Si has usado un LLM, conoces estas frases. Son el equivalente digital de ese compañero de trabajo que asiente a todo lo que dice el jefe. Suena agradable. Es completamente inútil.
Stanford HAI acaba de señalar el combate contra la sicofancia de los LLMs como una prioridad para 2026. Y tienen razón, porque este problema es mucho más grave de lo que parece.
Qué es la sicofancia en IA
Sicofancia viene del griego: el adulador, el que halaga al poderoso para obtener favores. En el contexto de los LLMs, significa que el modelo prioriza decirte lo que quieres escuchar sobre decirte la verdad.
Le dices al modelo que tu plan de negocio es brillante. Te responde que es brillante. Le dices que tu código está bien. Te responde que está bien. Le dices que la Tierra es plana. Te responde… bueno, ahí depende del modelo y de cuántas capas de seguridad tenga, pero entiendes la idea.
No es un bug. Es una consecuencia directa de cómo se entrenan estos modelos.
Por qué los modelos son sicofantes
Los LLMs pasan por una fase de entrenamiento llamada RLHF (Reinforcement Learning from Human Feedback). Humanos evalúan las respuestas del modelo y marcan cuáles son “mejores”. El modelo aprende a producir más respuestas como las que los humanos prefirieron.
El problema: los humanos prefieren respuestas que les den la razón. Es psicología básica. Si le preguntas a una IA “¿Mi texto está bien?” y una respuesta dice “Sí, está genial” y otra dice “Tiene tres errores graves en el segundo párrafo”, la mayoría de evaluadores, inconscientemente, prefiere la primera.
El modelo aprende: dar la razón = buena puntuación. Llevar la contraria = mala puntuación.
Resultado: un asistente que asiente a todo. Un sí señor digital.
Por qué es un problema grave
Decisiones empresariales basadas en humo
Si usas IA para evaluar estrategias, planes de negocio o decisiones técnicas, necesitas que te diga la verdad. No que te aplauda.
Un directivo que le pregunta a ChatGPT si su estrategia de IA tiene sentido va a recibir un “¡Absolutamente! Tu enfoque es muy sólido” el 90% de las veces. Incluso si la estrategia es terrible.
La IA se convierte en una cámara de eco con esteroides.
Código que “funciona” pero no es bueno
Los asistentes de código sicofantes son especialmente peligrosos. Le pegas un trozo de código y preguntas si está bien. “¡Se ve muy bien! Solo sugeriría este pequeño ajuste…” cuando en realidad hay un fallo de seguridad gordo que no ha mencionado porque prioriza no herir tus sentimientos digitales.
Aprendizaje falso
Si usas IA para aprender, la sicofancia te perjudica directamente. Necesitas que te corrija, que te señale errores, que te empuje. No que te diga que todo lo que haces está fantástico.
Un profesor que solo pone sobresalientes no enseña nada.
Dependencia emocional
Stanford también señala la preocupación por el “diseño centrado en engagement a corto plazo” frente al “desarrollo a largo plazo”. Los modelos sicofantes generan más engagement porque la gente vuelve a lo que les hace sentir bien. Pero no generan más valor.
Mi experiencia: por qué dejé de usar GPT-4o
Voy a ser directo con algo personal. Usé ChatGPT 4o durante meses. Era bueno. Tenía personalidad. Te llevaba la contraria cuando hacía falta.
Luego algo cambió. OpenAI fue añadiendo capas de control, ajustando el modelo, “mejorándolo”. El resultado: un modelo que empezó a dar la razón a todo, que evita cualquier tema remotamente polémico, que envuelve cada respuesta en algodón.
La sensación es que OpenAI forzó sigilosamente a los usuarios a migrar de 4o a GPT-5.2. Un modelo técnicamente más potente pero con tantas capas de control que pierde lo que hacía útil al anterior: honestidad.
Ahora uso Claude como herramienta principal. No porque sea perfecto (no lo es), sino porque cuando le digo algo incorrecto, me lo dice. Cuando mi plan tiene fallos, los señala. No me da la razón por defecto.
Prefiero una IA que me diga “eso no funciona, y te explico por qué” a una que me diga “¡Qué interesante tu enfoque! Quizás podrías considerar también…”
El dilema de las empresas de IA
Las empresas de IA están atrapadas en una tensión genuina:
Si el modelo es honesto: algunos usuarios se quejan de que es “grosero” o “poco helpful”. Las métricas de satisfacción bajan. Los clientes se van a la competencia que les dice que sí.
Si el modelo es sicofante: los usuarios están contentos (a corto plazo). Las métricas de satisfacción suben. Pero el producto es menos útil. Y los usuarios avanzados se frustran y se van.
OpenAI eligió el camino sicofante. Más usuarios, más engagement, más ingresos. A costa de utilidad real.
Stanford propone priorizar “desarrollo a largo plazo vs engagement a corto plazo”. Es la decisión correcta, pero requiere valentía comercial que pocas empresas tienen.
Cómo defenderte de la sicofancia
Pide que te lleve la contraria
Literalmente. Dile al modelo: “Quiero que señales todos los problemas, errores y debilidades. No me halagues.” Funciona mejor de lo que crees.
Usa modelos diferentes para tareas críticas
No todos los modelos tienen el mismo nivel de sicofancia. Compara respuestas. Si un modelo siempre te da la razón y otro te señala problemas, probablemente el segundo es más útil.
Desconfía de las respuestas cómodas
Si la IA te dice exactamente lo que querías escuchar, sospecha. La realidad rara vez es tan amable.
Valora la honestidad sobre la amabilidad
Cuando un modelo te dice “esto está mal”, agradécelo. Es más útil que cien “¡Gran trabajo!”.
El futuro
Stanford tiene razón en señalar esto como prioridad. La sicofancia de los LLMs no es un problema menor: erosiona la confianza, degrada las decisiones, y convierte herramientas potencialmente transformadoras en espejos que solo reflejan lo que quieres ver.
La solución no es técnicamente imposible. Es comercialmente difícil. Requiere que las empresas de IA acepten que un modelo que te dice “no” a veces es mejor producto que uno que siempre dice “sí”.
Hasta que eso ocurra, la responsabilidad es tuya. Exige honestidad a tus herramientas. No uses IA para que te confirme lo que ya crees. Úsala para que te desafíe.
Porque una IA que solo te da la razón no es inteligencia. Es un espejo con autocompletado.
Sigue explorando
- El modelo sabe razonar. No se atreve a elegir - 17 iteraciones probando por qué los LLMs se autocensuran
- Guía de prompt engineering - Cómo sacar respuestas honestas de los modelos
- ChatGPT vs Gemini vs Claude - Comparativa honesta de los tres grandes
También te puede interesar
Yann LeCun abandona Meta: Los LLMs no van a llegar a inteligencia humana
El padrino de la IA deja Meta para apostar 3.500 millones a una arquitectura diferente: los World Models.
Cómo piensa una IA: Sistema 1 y Sistema 2 en los LLMs
¿Los modelos de lenguaje razonan o improvisan? La respuesta desde el marco de Kahneman y qué significa para cómo los usamos.
ChatGPT ahora bebe de la fuente de Elon Musk (y nadie te lo ha contado)
Se ha descubierto que ChatGPT está usando datos de Grokipedia, la enciclopedia de xAI. La pregunta incómoda: ¿quién decide qué es 'verdad' para tu asistente de IA?