En el mundo moderno del Big Data, los datos que más abundan son los no estructurados. Son tan prolíficos porque los datos no estructurados pueden ser de cualquier naturaleza: multimedia, imágenes, audio, datos de sensores, datos de texto y muchos más. «No estructurado» significa simplemente que se trata de conjuntos de datos (grandes colecciones típicas de archivos) que no se almacenan en un formato de base de datos estructurado. Los datos no estructurados tienen una estructura interna, pero no están predefinidos mediante modelos de datos. Pueden estar generados por seres humanos o máquinas, en formato textual o no textual.
Datos no estructurados frente a datos estructurados
Los datos no estructurados pueden considerarse datos que no se gestionan de manera activa en un sistema transaccional; por ejemplo, datos que no residen en un sistema de gestión de bases de datos relacionales (RDBMS). Los datos estructurados se pueden considerar registros (o transacciones) en un entorno de base de datos; por ejemplo, filas en una tabla de una base de datos SQL.
No hay ninguna preferencia entre si los datos deben estar estructurados o no. Ambos tipos tienen herramientas que permiten a los usuarios acceder a la información. En la actualidad, son mucho más frecuentes los datos no estructurados frente a los datos estructurados.
Algunos ejemplos de datos no estructurados son:
Hasta la llegada del almacenamiento basado en objetos, la mayoría, si no todos estos datos no estructurados, se almacenaban en sistemas basados en archivos.
¿Qué retos tiene trabajar con datos no estructurados?
El planteamiento que hay que hacer para afrontar los retos de los datos no estructurados es preguntar lo siguiente: ¿a qué se enfrentan las empresas con los enfoques tradicionales a la hora de gestionar los datos no estructurados?
EscalaEn muchas empresas es habitual enfrentarse a conjuntos de datos no estructurados a escala de decenas o cientos de miles de millones de elementos. Estos elementos, objetos o archivos pueden ser cualquier cosa, desde unos pocos bytes (por ejemplo, una lectura de temperatura de un instrumento de la línea de producción) hasta terabytes de tamaño (por ejemplo, una imagen en movimiento de resolución 8K completa). La gestión de esta escala con métodos de archivos tradicionales es una tarea entre difícil e imposible, ya que se necesitan cada vez más recursos para mantener un «equilibrio» de servidores, sistemas de archivos, cabinas, etc.
ColaboraciónCada vez más, estos conjuntos de datos no estructurados masivos aportan valor a medida que se comparten (por ejemplo, investigadores de varios hospitales que comparten un banco masivo común de secuencias de genomas). Con los enfoques tradicionales, para compartir conjuntos masivos de datos no estructurados en diferentes zonas geográficas, entidades corporativas, etc. se requiere una replicación y un control extremadamente costosos.