Taxonomía de fallos de LLMs
· 3 min de lectura
TL;DR
- 4 tipos de fallo: ambigüedad, cálculo, error conceptual, conocimiento externo
- Cada tipo tiene su solución: v17b, extended thinking, modelo mejor, búsqueda web
- El prompting solo resuelve el tipo 1 (ambigüedad)
- Diagnóstico: si dice “contradicción” → tipo 3, si inventa datos → tipo 4
Los cuatro tipos de fallo
Esta taxonomía es el resultado de meses experimentando con los límites del prompting. Empezó cuando descubrí que el modelo encuentra la respuesta correcta pero no se atreve a elegir.
| Tipo | Ejemplo | Causa raíz |
|---|---|---|
| Ambigüedad interpretativa | Monedas: 0 vs 1/13 | Sesgo hacia lo “estándar” |
| Cálculo puro | Aritmética compleja | Límite de capacidad |
| Error conceptual | Confundir marginal con independencia | No sabe que no sabe |
| Conocimiento externo | Datos de papers específicos | No tiene la información |
Solución para cada tipo
1. Ambigüedad interpretativa
- Prompt v17b funciona
- “Permiso para descartar”
- Roleplay / buffer no ayudan (lo probé en el post 01)
2. Cálculo puro
- Modelos con extended thinking (Opus, o1)
- Herramientas de código
- Prompts elaborados estorban
3. Error conceptual
- Ningún prompt lo resuelve
- Pistas específicas pueden ayudar
- Modelo más capaz
- Ejemplo real: cuando la IA te “arregla” un bug hardcodeando el print
4. Conocimiento externo
- Búsqueda web
- Verificar datos extraídos (pueden estar mal)
- No esperes que “razone” la respuesta
- Documenté esto en más tokens no es mejor: el modelo inventa formulas
Cómo identificar el tipo
Señales de ambigüedad:
- El problema tiene una palabra como “siempre”, “dado que”, “se sabe que”
- Hay múltiples formas de modelar una condición
Señales de cálculo:
- El modelo empieza bien pero se pierde en los números
- Diferentes intentos dan diferentes resultados numéricos
Señales de error conceptual:
- El modelo dice “esto es imposible” o “hay una contradicción” (lo vi en el experimento del Two-Box)
- Confunde términos técnicos (marginal vs condicional, correlación vs causalidad)
Señales de conocimiento externo:
- El modelo inventa fórmulas o cita papers que no existen
- Diferentes modelos dan respuestas completamente diferentes
Tabla de decisión rápida
¿El problema tiene ambigüedad?
→ Sí → Prompt v17b
→ No ↓
¿Es cálculo complejo?
→ Sí → Extended thinking / código
→ No ↓
¿El modelo dice algo claramente incorrecto pero con confianza?
→ Sí → Error conceptual. Pista específica o modelo mejor.
→ No ↓
¿Necesita datos que no están en el prompt?
→ Sí → Búsqueda web + verificación
→ No → Debería funcionar. Si falla, revisar prompt.
Por eso no hay que ser fanboy de ningún modelo: cuando uno falla para tu tarea, cambias a otro.
También te puede interesar
El modelo sabe razonar. No se atreve a elegir
17 iteraciones de prompts revelaron que el modelo encuentra la respuesta correcta pero se autocensura por no ser lo estándar
Más tokens no es mejor resultado
Cómo un meta-prompt exhaustivo causó overflow de contexto y llegó al mismo error en un problema de random walk
El prompt que resuelve problemas ambiguos
Guía práctica del prompt v17b: metodología para que un LLM identifique y descarte interpretaciones incorrectas