O que é deduplicação de dados?

Tópicos

Compartilhe esta página

A deduplicação de dados é um processo que elimina cópias excessivas de dados e reduz significativamente os requisitos de capacidade de storage.

A deduplicação pode ser executada como um processo inline à medida que os dados estão sendo gravados no sistema de storage e/ou como um processo em segundo plano para eliminar duplicatas após a gravação dos dados no disco.

Na NetApp, a deduplicação é uma tecnologia sem perda de dados que é executada como um processo inline e como um processo em segundo plano para maximizar a economia. Ele é executado de forma oportunista como um processo inline para que ele não interfira nas operações do cliente, e é executado de forma abrangente em segundo plano para maximizar a economia. A deduplicação é ativada por padrão e o sistema a executa automaticamente em todos os volumes e agregados sem qualquer intervenção manual.

A sobrecarga de desempenho é mínima para operações de deduplicação, porque é executada em um domínio de eficiência dedicado que é separado do domínio de leitura/gravação do cliente. Ele é executado nos bastidores, independentemente de qual aplicativo é executado ou como os dados estão sendo acessados (nas ou SAN).

A economia de deduplicação é mantida à medida que os dados são movidos. Quando os dados são replicados para um local de recuperação de desastres, quando são copiados para um cofre ou quando são migrados para um local, nuvem híbridae/ou nuvem pública.

Deduplication reduces the amount of physical storage required for a volume by discarding duplicate data blocks.

Como funciona a deduplicação?

A deduplicação opera no nível de bloco 4KB dentro de um volume FlexVol inteiro e entre todos os volumes no agregado, eliminando blocos de dados duplicados e armazenando apenas blocos de dados exclusivos.

A principal tecnologia de habilitação da deduplicação são impressões digitais - assinaturas digitais exclusivas para todos os blocos de dados 4KB.

Quando os dados são gravados no sistema, o mecanismo de deduplicação in-line verifica os blocos de entrada, cria uma impressão digital e armazena a impressão digital em um armazenamento de hash (estrutura de dados na memória).

Depois que a impressão digital é computada, uma pesquisa é realizada no armazenamento de hash. Após uma correspondência de impressão digital no armazenamento de hash, o bloco de dados correspondente à impressão digital duplicada (bloco doador) é pesquisado na memória cache:

Se for encontrado, uma comparação byte-a-byte é feita entre o bloco de dados atual (bloco de destinatários) e o bloco doador como verificação para garantir uma correspondência exata. Na verificação, o bloco de destinatários é compartilhado com o bloco de doadores correspondente sem uma gravação real do bloco de destinatários no disco. Apenas os metadados são atualizados para rastrear os detalhes de compartilhamento.
Se o bloco doador não for encontrado na memória cache, o bloco doador será pré-buscado do disco para o cache para fazer uma comparação byte-por-byte para garantir uma correspondência exata. Na verificação, o bloco de destinatários é marcado como duplicado sem uma gravação real no disco. Os metadados são atualizados para acompanhar os detalhes de compartilhamento.

O mecanismo de desduplicação em segundo plano funciona da mesma forma. Ele verifica todos os blocos de dados no agregado e elimina duplicatas comparando impressões digitais dos blocos e fazendo uma comparação byte-a-byte para eliminar quaisquer falsos positivos. Esse procedimento também garante que não haja perda de dados durante a operação de deduplicação.

Benefícios da deduplicação do NetApp

Existem algumas vantagens significativas na deduplicação da NetApp:

Opera no NetApp ou no storage de arquivamento, secundário e primário de terceiros
Independente da aplicação
Protocolo independente
Sobrecarga mínima
Funciona em NetApp AFF, FAS
Validação byte-a-byte
Pode ser aplicada a novos dados ou a dados armazenados anteriormente em volumes e LUNs
uma corrida durante períodos fora de pico
Integrado a outras tecnologias de eficiência de storage da NetApp
As poupanças devidas à deduplicação podem ser herdadas ao utilizar a tecnologia de replicação NetApp SnapMirror ou o armazenamento em cache inteligente Flash Cache^TM
Gratuito

Casos de uso de deduplicação

A deduplicação é útil independentemente do tipo de workload. O benefício máximo é visto em ambientes virtuais em que várias máquinas virtuais são usadas para implantações de teste/desenvolvimento e aplicações.

A infraestrutura de desktop virtual (VDI) é outro candidato muito bom para a deduplicação, porque os dados duplicados entre os desktops são muito altos.

Alguns bancos de dados relacionais, como Oracle e SQL , não se beneficiam muito com a deduplicação, porque muitas vezes têm uma chave exclusiva para cada Registro de banco de dados, o que impede que o mecanismo de deduplicação os identifique como duplicatas.

Configuração da deduplicação

A deduplicação é ativada automaticamente em todos os novos volumes e agregados em sistemas AFF. Em outros sistemas, a deduplicação pode ser ativada por volume e/ou por agregado.

Uma vez ativado, o sistema executa automaticamente operações em linha e em segundo plano para maximizar a economia.