A deduplicação de dados é um processo que elimina cópias excessivas de dados e reduz significativamente os requisitos de capacidade de storage.
A deduplicação pode ser executada como um processo inline à medida que os dados estão sendo gravados no sistema de storage e/ou como um processo em segundo plano para eliminar duplicatas após a gravação dos dados no disco.
Na NetApp, a deduplicação é uma tecnologia sem perda de dados que é executada como um processo inline e como um processo em segundo plano para maximizar a economia. Ele é executado de forma oportunista como um processo inline para que ele não interfira nas operações do cliente, e é executado de forma abrangente em segundo plano para maximizar a economia. A deduplicação é ativada por padrão e o sistema a executa automaticamente em todos os volumes e agregados sem qualquer intervenção manual.
A sobrecarga de desempenho é mínima para operações de deduplicação, porque é executada em um domínio de eficiência dedicado que é separado do domínio de leitura/gravação do cliente. Ele é executado nos bastidores, independentemente de qual aplicativo é executado ou como os dados estão sendo acessados (nas ou SAN).
A economia de deduplicação é mantida à medida que os dados são movidos. Quando os dados são replicados para um local de recuperação de desastres, quando são copiados para um cofre ou quando são migrados para um local, nuvem híbridae/ou nuvem pública.
A deduplicação opera no nível de bloco 4KB dentro de um volume FlexVol inteiro e entre todos os volumes no agregado, eliminando blocos de dados duplicados e armazenando apenas blocos de dados exclusivos.
A principal tecnologia de habilitação da deduplicação são impressões digitais - assinaturas digitais exclusivas para todos os blocos de dados 4KB.
Quando os dados são gravados no sistema, o mecanismo de deduplicação in-line verifica os blocos de entrada, cria uma impressão digital e armazena a impressão digital em um armazenamento de hash (estrutura de dados na memória).
Depois que a impressão digital é computada, uma pesquisa é realizada no armazenamento de hash. Após uma correspondência de impressão digital no armazenamento de hash, o bloco de dados correspondente à impressão digital duplicada (bloco doador) é pesquisado na memória cache:
O mecanismo de desduplicação em segundo plano funciona da mesma forma. Ele verifica todos os blocos de dados no agregado e elimina duplicatas comparando impressões digitais dos blocos e fazendo uma comparação byte-a-byte para eliminar quaisquer falsos positivos. Esse procedimento também garante que não haja perda de dados durante a operação de deduplicação.
Existem algumas vantagens significativas na deduplicação da NetApp:
A deduplicação é útil independentemente do tipo de workload. O benefício máximo é visto em ambientes virtuais em que várias máquinas virtuais são usadas para implantações de teste/desenvolvimento e aplicações.
A infraestrutura de desktop virtual (VDI) é outro candidato muito bom para a deduplicação, porque os dados duplicados entre os desktops são muito altos.
Alguns bancos de dados relacionais, como Oracle e SQL , não se beneficiam muito com a deduplicação, porque muitas vezes têm uma chave exclusiva para cada Registro de banco de dados, o que impede que o mecanismo de deduplicação os identifique como duplicatas.
A deduplicação é ativada automaticamente em todos os novos volumes e agregados em sistemas AFF. Em outros sistemas, a deduplicação pode ser ativada por volume e/ou por agregado.
Uma vez ativado, o sistema executa automaticamente operações em linha e em segundo plano para maximizar a economia.