Menu

O que são dados não estruturados?

Tópicos

Compartilhe esta página

No mundo moderno do Big Data, os dados não estruturados são os mais recorrentes. É tão prolífico, porque os dados não estruturados podem ser qualquer coisa: Mídia, imagem, áudio, dados de sensor, dados de texto, e muito mais. Não estruturados significa simplesmente que são conjuntos de dados (grandes coleções de arquivos típicos) que não são armazenados em um formato de banco de dados estruturado. Os dados não estruturados têm uma estrutura interna, mas não são predefinidos por meio de modelos de dados. Pode ser gerado por humanos, ou gerado por máquina em um formato textual ou não textual.

Dados não estruturados versus dados estruturados

Os dados não estruturados podem ser considerados como dados que não são gerenciados ativamente em um sistema transacional; por exemplo, dados que não residem em um sistema de gerenciamento de banco de dados relacional (RDBMS). Os dados estruturados podem ser considerados como Registros (ou transações) em um ambiente de banco de dados; por exemplo, linhas em uma tabela de um banco de dados SQL.

Não há preferência quanto à estrutura ou não dos dados. Ambos têm ferramentas que permitem aos usuários acessar informações. Os dados não estruturados simplesmente ficam mais abundantes do que os dados estruturados.

Exemplos de dados não estruturados são:

Até o advento do storage baseado em objeto, a maioria, se não todos, desses dados não estruturados era armazenada em sistemas baseados em arquivo.

Quais são os desafios que o trabalho com dados não estruturados apresenta?

A maneira de pensar sobre como lidar com os desafios dos dados não estruturados é perguntar: O que as empresas enfrentam com abordagens tradicionais para o gerenciamento de dados não estruturados?

Escala

Em muitas empresas, é comum encontrar conjuntos de dados não estruturados na escala de dezenas ou centenas de bilhões de itens. Esses itens, objetos ou arquivos podem ser de alguns bytes (por exemplo, uma leitura de temperatura de um instrumento de linha de produção) a terabytes de tamanho (por exemplo, uma imagem em movimento de resolução 8KK completa). O gerenciamento dessa escala com abordagens de arquivos tradicionais passa rapidamente de difícil para impossível, à medida que mais e mais recursos são necessários apenas para manter um "equilíbrio" de servidores, sistemas de arquivos, arrays etc.

Colaboração

Cada vez mais, esses conjuntos de dados não estruturados massivos agregam valor à medida que são compartilhados (por exemplo, pesquisadores em vários hospitais que compartilham um enorme banco comum de sequências genômicas). Com abordagens tradicionais, a capacidade de compartilhar conjuntos massivos de dados não estruturados de diferentes regiões geográficas, entidades corporativas etc., exigiu replicação e governança extremamente caras.

Storage de objetos: Gerencie dados não estruturados em escala extrema

Superar esses desafios usando o armazenamento em objeto

As soluções atuais de armazenamento de objetos atendem aos desafios de escala e colaboração, fornecendo um namespace ativo distribuído geograficamente. Esse namespace permite que um usuário em qualquer local recupere um objeto ou um arquivo de qualquer local com um simples comando GET (sem precisar especificar um data center, um servidor, um sistema de arquivos ou um diretor). Da mesma forma, os comandos PUT permitem que os dados sejam ingeridos para que todos os locais possam acessá-los facilmente.

A simplicidade e o dimensionamento de um único namespace global, combinados com um protocolo simples de gerenciamento de dados sem estado (por exemplo, Amazon S3 e Swift), ajudam as organizações a oferecer um ambiente colaborativo e dimensionável além dos limites geográficos, organizacionais e de aplicativos.

NetApp e storage de objetos

Você pode armazenar e gerenciar dados não estruturados em escala usando a tecnologia StorageGRID da NetApp para um storage de objeto seguro e durável para nuvens públicas e privadas. Com o StorageGRID, você pode criar um grande namespace único (vários locais) e também integrar uma única política de ciclo de vida de informações a esses dados. Com o mecanismo de política integrada do StorageGRID, você pode ter certeza de que seus dados estão disponíveis:

  • Na localização geográfica correta
  • No nível certo de desempenho
  • No nível certo de durabilidade e proteção
  • No momento certo e mudando automaticamente com o tempo, à medida que as necessidades dos negócios evoluem
Drift chat loading