What is unstructured data?

In the modern world of big data, unstructured data is the most abundant. It’s so prolific because unstructured data could be anything: media, imaging, audio, sensor data, text data, and much more. Unstructured simply means that it is datasets (typical large collections of files) that aren’t stored in a structured database format. Unstructured data has an internal structure, but it’s not predefined through data models. It might be human generated, or machine generated in a textual or a non-textual format.

Qué son los datos no estructurados: definición y significado

Datos no estructurados frente a datos estructurados

Los datos no estructurados pueden considerarse datos que no se gestionan de manera activa en un sistema transaccional; por ejemplo, datos que no residen en un sistema de gestión de bases de datos relacionales (RDBMS). Los datos estructurados se pueden considerar registros (o transacciones) en un entorno de base de datos; por ejemplo, filas en una tabla de una base de datos SQL.

No hay ninguna preferencia entre si los datos deben estar estructurados o no. Ambos tipos tienen herramientas que permiten a los usuarios acceder a la información. En la actualidad, son mucho más frecuentes los datos no estructurados frente a los datos estructurados.

Algunos ejemplos de datos no estructurados son:

Medios enriquecidos. Datos de medios y entretenimiento, datos de vigilancia, datos geoespaciales, audio, datos meteorológicos.
Recopilaciones de documentos. Facturas, registros, correos electrónicos, aplicaciones de productividad.
Internet de las cosas (IoT). Datos de sensores, datos de Ticker.
Análisis. Aprendizaje automático, inteligencia artificial (IA).

Hasta la llegada del almacenamiento basado en objetos, la mayoría, si no todos estos datos no estructurados, se almacenaban en sistemas basados en archivos.

¿Qué retos tiene trabajar con datos no estructurados?

El planteamiento que hay que hacer para afrontar los retos de los datos no estructurados es preguntar lo siguiente: ¿a qué se enfrentan las empresas con los enfoques tradicionales a la hora de gestionar los datos no estructurados?

Escala

En muchas empresas es habitual enfrentarse a conjuntos de datos no estructurados a escala de decenas o cientos de miles de millones de elementos. Estos elementos, objetos o archivos pueden ser cualquier cosa, desde unos pocos bytes (por ejemplo, una lectura de temperatura de un instrumento de la línea de producción) hasta terabytes de tamaño (por ejemplo, una imagen en movimiento de resolución 8K completa). La gestión de esta escala con métodos de archivos tradicionales es una tarea entre difícil e imposible, ya que se necesitan cada vez más recursos para mantener un «equilibrio» de servidores, sistemas de archivos, cabinas, etc.

Colaboración

Cada vez más, estos conjuntos de datos no estructurados masivos aportan valor a medida que se comparten (por ejemplo, investigadores de varios hospitales que comparten un banco masivo común de secuencias de genomas). Con los enfoques tradicionales, para compartir conjuntos masivos de datos no estructurados en diferentes zonas geográficas, entidades corporativas, etc. se requiere una replicación y un control extremadamente costosos.

Cómo superar estos retos con el almacenamiento de objetos

Las soluciones de almacenamiento de objetos actuales cumplen los retos de escala y colaboración al ofrecer un espacio de nombres activo con distribución geográfica. Este espacio de nombres permite a un usuario situado en cualquier ubicación recuperar un objeto o un archivo desde cualquier lugar con un sencillo comando GET (sin tener que especificar un centro de datos, un servidor, un sistema de archivos o un director). Del mismo modo, los comandos PUT permiten la ingesta de datos para que todas las ubicaciones puedan tener acceso a ellos fácilmente.

Gracias a la simplicidad y escalabilidad de un único espacio de nombres global combinado con un sencillo protocolo de gestión de datos sin estado (por ejemplo, Amazon S3 y Swift), las organizaciones pueden proporcionar un entorno escalable y de colaboración en distintos puntos geográficos, organizaciones y aplicaciones.

NetApp y almacenamiento de objetos

Es posible almacenar y gestionar datos no estructurados a escala con la tecnología StorageGRID^® de NetApp^® para un almacenamiento de objetos seguro y duradero de nubes privadas y públicas. Con StorageGRID, puedes crear un único espacio de nombres masivo (de múltiples ubicaciones) y puedes integrar una política única de ciclo de vida de la información en esos datos. Con el motor de políticas integrado de StorageGRID, puedes tener la seguridad de que tus datos están disponibles:

En la ubicación geográfica correcta
En el nivel adecuado de rendimiento
En el nivel correcto de durabilidad y protección
En el momento justo y cambiando a lo largo del tiempo automáticamente a medida que evolucionan las necesidades de tu empresa

¿Qué son los datos no estructurados?

Compartir esta página

Datos no estructurados frente a datos estructurados

¿Qué retos tiene trabajar con datos no estructurados?

Almacenamiento de objetos o cómo gestionar datos no estructurados a escala extrema

Cómo superar estos retos con el almacenamiento de objetos

NetApp y almacenamiento de objetos