No es fácil definir Big Data y, por alguna razón, tampoco hay demasiada literatura acerca de sus especificidades técnicas. Sin embargo, sí hay características, ideas comunes o aspectos a conocer y recordar.
En su libro ‘Too big to ignore‘, Phil Simon nos habla de quince características. Dada la naturaleza de las propuestas, más que características, creo que son apreciaciones y particularidades a conocer y recordar sobre Big Data.
Éstas son esas quince cosas a recordar:
- Ya está aquí: No se trata de un fenómeno para el futuro o en su infancia. Referencias tan relevantes como Amazon, Facebook, Apple, Twitter, LinkedIn, IBM, etc son suficientes para avalar un fenómeno que está aquí para quedarse.
- Está extremadamente fragmentado: Hay muchos datos, hay muchos fenómenos en la ‘long tail‘, hay mucho ‘ruido’ y quizá poca señal…pero esa señal existe y las técnicas de Big Data permiten encontrarla.
- No es un elixir: aunque muy importante, Big Data no sustituye a la gestión de datos tradicional ni tampoco hace milagros resucitando negocios agonizantes. Simplemente, se trata de un fenómeno emergente e importante…no milagroso.
- ‘Small data’ extiende ‘Big Data’: Los datos tradicionales, estructurados (‘small data‘) siguen siendo valiosos y contienen un gran valor descriptivo. Además, las organizaciones que gestionan bien el ‘small data’ estarán mejor preparadas para el ‘Big Data’.
- Es un complemento, no un sustituto: por lo anterior, Big Data debe verse como un complemento, no un sustituto, de la gestión de datos tradicional.
- Puede proporcionar mejores predicciones: complementa las técnicas típicamente basadas en datos históricos con otro tipo de información. Aún así, Big Data sólo puede asegurar mejores predicciones…pero no adivinar el futuro.
- Es un arma de doble filo: a pesar de sus grandes beneficios, Big Data también tiene sus peligros: es un arma de doble filo. El conocimiento que proporciona y la inmediatez también pueden perjudicar, por la amplificación que suponen, a compañías que toman decisiones equivocadas.
- No es ni omnisciente ni preciso: Big Data acota, pero no elimina, la incertidumbre ni los cisnes negros. Aún hay espacio para lo imprevisto y para la sorpresa.
- Es en general ancho, no largo: Si en los sistemas de gestión de bases de datos relacionales tradicionales, suele haber muchas filas (registros) de un número relativamente limitado y muy estable de columnas (datos en cada registro), Big Data tiende a añadir, de forma dinámica, nuevos datos por cada registro. De hecho, el concepto de fila tiende a difuminarse en Big Data y aparecen, por ejemplo, las bases de datos columnares.
- Es dinámico y ampliamente impredecible: El mercado actual es dinámico y, muchas veces debido a cambios tecnológicos, impredecible. Big Data no puede eliminar ese dinamismo ni incertidumbre.
- Está en gran parte dirigido por los consumidores: debido al creciente fenómeno de la ‘consumerización‘, los consumidores generan y acceden a crecientes cantidades de datos. Por ello, son los consumidores, más que las empresas, los que dirigen de alguna forma el nacimiento y evolución de Big Data.
- Es externo y no gestionable en el sentido tradicional: los datos que maneja Big Data en general se generan fuera de los contornos corporativos por lo que no se pueden controlar y gestionar como un activo propio.
- Es inherentemente incompleto: a pesar del volumen de datos que maneja Big Data, no existe tal cosa como un conjunto de datos absolutamente completo.
- Superposición con Business Intelligence: Big Data tiene que ver con Business Intelligence en sus objetivos (obtener valor a partir de la información) pero especialmente debido al tipo de datos que manejan (estructurados en el caso de Business Intelligence y fundamentalmente no estructurados o semiestructurados en el caso de Big Data) se aplican técnicas y soluciones diferentes.
- Es democrático: al contrario que, por ejemplo, Business Intelligence, Big Data no surge en el entorno corporativo sino que aperecee en una era de apertura y así, las soluciones fundamentales como Hadoop y NoSQL, provienen de comunidades de software libre.
Estas quince apreciaciones no constituyen características de Big Data en el sentido técnico o a efectos de definición, pero sí son aspectos que creo importantes a conocer y recordar sobre Big Data.