El 90% de tus datos son basura que nadie sabe procesar
TL;DR
- 90% de tus datos son no estructurados (emails, PDFs, fotos, notas)
- El 97% de empresas invierte en Big Data, solo el 40% lo usa bien
- La IA necesita datos limpios; si no los tienes, te da basura con más confianza
- Antes de comprar herramientas: inventario, pipelines básicos, una sola fuente de verdad
Los números
- 181 zettabytes de datos generados en 2025
- 90% son no estructurados
- 97% de las empresas han invertido en Big Data
- Solo 40% usa analytics efectivamente
Traduzco: casi todas las empresas tienen datos. Casi ninguna sabe qué hacer con ellos.
Qué significa “no estructurado”
Datos estructurados:
SELECT nombre, fecha, importe FROM ventas
Fácil. Una tabla. Columnas claras. SQL y listo.
Datos no estructurados:
- Emails de clientes quejándose
- PDFs de contratos escaneados
- Mensajes de Slack del equipo
- Grabaciones de llamadas
- Fotos de productos en WhatsApp
- Notas en post-its fotografiados
El 90% de los datos de tu empresa son esto. Y no caben en una tabla.
El problema real
Las empresas compran:
- Licencias de Power BI
- Subscripciones a Snowflake
- Plataformas de “IA empresarial”
Y luego descubren que sus datos están en:
- 47 Excel compartidos por email
- Un Access de 2008 que “solo Juan sabe usar”
- Carpetas de red con nombres como “FINAL_v3_BUENO_ESTE_SÍ”
- El correo del CEO que nunca reenvía nada
No es un problema de herramientas. Es un problema de fontanería. Y este problema de fontanería explica en parte por qué hay 7 billones buscando retorno en IA sin encontrarlo.
Lo que veo como data engineer
El 80% de mi trabajo no es análisis. Es:
1. Encontrar dónde están los datos
- “¿Quién tiene el histórico de ventas de 2019?”
- “En un Excel que tenía María antes de irse”
2. Limpiar basura
- Fechas en 15 formatos diferentes
- “NULL”, “N/A”, ”-”, ” ”, “no aplica” → todo es lo mismo
- Duplicados que nadie sabe si son duplicados o registros diferentes
3. Conectar sistemas que no hablan
- El CRM no habla con el ERP
- El ERP exporta CSV con encoding roto
- Alguien tiene un script de Python que “lo arregla” pero nadie sabe dónde está
4. Convencer a la gente de que use el sistema
- “Ya, pero yo lo tengo en mi Excel y me va bien”
Por qué la IA no te va a salvar
La fantasía:
“Metemos IA y analiza todos nuestros datos automáticamente”
La realidad:
La IA necesita datos limpios, estructurados y accesibles. Si no los tienes, la IA te va a dar basura con más confianza.
Garbage in, garbage out. Pero ahora con un chatbot que te dice que la basura es oro. Esto explica en parte por qué el 95% de empresas no ve resultados con IA: no es la herramienta, es la fontanería.
Qué hacer antes de comprar IA
1. Inventario de datos
¿Qué datos tienes? ¿Dónde están? ¿Quién los mantiene?
Si no puedes responder esto, no estás listo para IA.
2. Un solo origen de verdad
Por proceso. Por métrica. Un sitio donde está el dato bueno.
No “el Excel de Juan” vs “el reporte de María”.
3. Pipelines básicos
Extracción → Transformación → Carga. Lo básico. Sin glamour.
Si tus datos no fluyen, ninguna herramienta te va a ayudar.
4. Gobierno de datos
¿Quién decide qué es un “cliente activo”? ¿Quién aprueba cambios en las definiciones?
Sin esto, cada departamento tiene su propia verdad.
Conclusión
El 90% de tus datos son no estructurados.
El 97% de las empresas han invertido en Big Data.
Solo el 40% lo usa efectivamente.
La diferencia no es la herramienta. Es la fontanería.
Antes de comprar IA, asegúrate de que puedes responder: “¿Cuánto vendimos el mes pasado?” sin que tres personas te den tres números diferentes.
También te puede interesar
Data-Centric AI: por qué más datos no significa mejores modelos
El cambio de paradigma en machine learning: invertir en calidad de datos, no en modelos más grandes. Herramientas y prácticas para implementarlo.
Por qué dejé de ser 'el de los dashboards' y aprendí Data Engineering
La historia de cómo pasé de analista atascado haciendo informes a entender de verdad cómo funcionan los datos. Y por qué tú deberías planteártelo.
El 95% no ve resultados con IA (y por qué es normal)
La curva J de adopción que nadie te cuenta. Por qué la productividad cae antes de subir cuando adoptas IA.