Más tokens no es mejor resultado
TL;DR
- Probé un problema de nivel investigación (random walk en toro 2D)
- Más búsquedas web, más tokens, más instrucciones → mismo error
- El modelo consumió tantos recursos que el chat dio error de “overflow”
- Lección: cuando no entiende el problema, más recursos = más racionalización
El problema
Después de los experimentos con el modelo que no se atrevía a elegir y el que rechazaba su propia respuesta correcta, probé un problema de nivel investigación: calcular la probabilidad de que un random walk en un toro 2D visite el origen antes de volver al punto inicial.
Respuesta correcta: e^(-pi/2) = 0.208
Estrategia 1: Busqueda web
| Configuracion | Resultado |
|---|---|
| Sin herramientas | Invento formulas (0, 1/e, 1/2) |
| Con internet | Encontro teoria correcta, extrajo mal un dato |
| Con pista “ese dato esta mal” | Corrigio dato, aplico mal la formula |
Cada capa de herramientas ayudaba parcialmente pero introducía nuevos errores.
Estrategia 2: Meta-prompt exhaustivo
Diseñe un prompt que instruía:
- Buscar multiples fuentes
- Verificar cada dato extraído
- Comparar resultados entre papers
- Solo responder cuando todo coincida
Resultado: El modelo hizo tantas busquedas y compactaciones que el chat dio error: “no se permiten mas compacts”. Primera vez que veía esto.
Y la respuesta final despues de consumir recursos masivos: 1/2 (incorrecta, la misma heurística simple).
Por que paso
El modelo uso un argumento elegante pero incorrecto:
“El origen y x_0 comparten 2 de 4 vecinos, así que la probabilidad es 1/2”
Cuando no entiende el problema de fondo, mas recursos solo significan mas espacio para racionalizar la respuesta incorrecta.
Leccion
| Mas X | Mejora resultado? |
|---|---|
| Mas tokens de thinking | No, si no sabe, racionaliza |
| Mas busquedas web | Parcial, puede extraer mal |
| Mas compactaciones | No, pierde contexto util |
| Mas instrucciones | No, puede ignorarlas |
El prompt engineering tiene techo. Para problemas que requieren conocimiento tecnico especializado que el modelo no tiene, ningun prompt lo resuelve. Esto es lo que documento en mi taxonomía de fallos de LLMs: hay errores que ningun prompt puede arreglar.
El siguiente paso fue sistematizar todo esto en un prompt para problemas ambiguos.
También te puede interesar
El modelo sabe razonar. No se atreve a elegir
17 iteraciones de prompts revelaron que el modelo encuentra la respuesta correcta pero se autocensura por no ser lo estándar
Llegó a 0 y lo llamó contradicción
Por qué separar contextos no basta para que un LLM se autocorrija: el problema de aceptar resultados contraintuitivos
El prompt que resuelve problemas ambiguos
Guía práctica del prompt v17b: metodología para que un LLM identifique y descarte interpretaciones incorrectas