La deduplicación de datos es un proceso que elimina copias excesivas de datos y reduce significativamente los requisitos de capacidad de almacenamiento.
La deduplicación se puede ejecutar como un proceso inline mientras los datos se escriben en el sistema de almacenamiento o como un proceso en segundo plano para eliminar duplicados después de que los datos se escriben en el disco.
En NetApp, la deduplicación es una tecnología de cero pérdida de datos que se ejecuta como proceso inline y como proceso en segundo plano para maximizar el ahorro. Se ejecuta de modo oportunista como proceso inline para que no interfiera con las operaciones del cliente y de manera integral en segundo plano para maximizar el ahorro. La deduplicación está activada de forma predeterminada y el sistema la ejecuta automáticamente en todos los volúmenes y agregados sin ninguna intervención manual.
La sobrecarga de rendimiento es mínima en las operaciones de deduplicación, porque se ejecuta en un dominio de eficiencia dedicado que está separado del dominio de lectura/escritura del cliente. Se ejecuta entre bastidores, independientemente de qué aplicación se ejecute o de cómo se acceda a los datos (NAS o SAN).
Los ahorros de deduplicación se mantienen a medida que los datos se mueven: cuando los datos se replican en un sitio de recuperación de desastres, cuando se realiza una copia de seguridad en un almacén o cuando se mueven entre on-premises, la nube híbrida o la nube pública.
La deduplicación opera a nivel de bloque de 4 KB dentro de un volumen FlexVol® completo y entre todos los volúmenes del agregado, eliminando bloques de datos duplicados y almacenando solo bloques de datos únicos.
La tecnología base que permite la deduplicación son las huellas: firmas digitales únicas para todos los bloques de datos de 4 KB.
Cuando se escriben datos en el sistema, el motor de deduplicación inline escanea los bloques entrantes, crea una huella digital y la almacena en un almacén hash (estructura de datos en memoria).
Una vez calculada la huella digital, se realiza una búsqueda en el almacén de hash. Si las huellas coinciden en el almacén hash, se busca en la memoria caché el bloque de datos correspondiente a la huella duplicada (bloque donante).
El motor de deduplicación en segundo plano funciona de la misma manera. Escanea todos los bloques de datos en el agregado y elimina duplicados mediante una comparación byte a byte de las huellas de los bloques para eliminar cualquier falso positivo. Este procedimiento también garantiza que no hay pérdidas de datos durante la operación de deduplicación.
Estas son algunas de las ventajas significativas de la deduplicación de NetApp®:
La deduplicación es útil independientemente del tipo de carga de trabajo. El máximo beneficio se observa en entornos virtuales donde se utilizan varias máquinas virtuales para pruebas, desarrollo y puesta en marcha de aplicaciones.
La infraestructura de puestos de trabajo virtuales (VDI) es otro buen candidato para la deduplicación, ya que la cantidad de datos duplicados en los escritorios es muy alta.
Algunas bases de datos relacionales, como Oracle y SQL, no se benefician mucho de la deduplicación porque a menudo tienen una clave única para cada registro de la base de datos, lo que evita que el motor de deduplicación los identifique como duplicados.
La deduplicación se activa automáticamente en todos los volúmenes y agregados nuevos de los sistemas AFF. En otros sistemas, la deduplicación puede activarse por volumen o agregado.
Una vez habilitada, el sistema ejecuta automáticamente las operaciones inline y en segundo plano para maximizar el ahorro.