La déduplication est un processus qui élimine les copies excessives de données et réduit considérablement les besoins en capacité de stockage.
La déduplication peut être exécutée à la volée pendant l'écriture des données dans le système de stockage et/ou en arrière-plan pour éliminer les doublons après l'écriture des données sur le disque.
Chez NetApp, la déduplication est une technologie sans perte de données, exécutée à la fois à la volée et en arrière-plan pour maximiser les économies. Elle est exécutée de manière opportuniste à la volée, de façon à ne pas interférer avec les opérations client, et de manière exhaustive en arrière-plan, pour maximiser les économies. La déduplication est activée par défaut et exécutée automatiquement sur tous les volumes et agrégats sans intervention manuelle.
La déduplication a un impact minime sur la performance, car elle s'exécute dans un domaine d'efficacité dédié qui est séparé du domaine de lecture/écriture client. Elle s'exécute en arrière-plan, indépendamment de l'application en cours ou de la façon dont on accède aux données (NAS ou SAN).
Les gains de la déduplication sont conservés lorsque les données sont déplacées : lorsqu'elles sont répliquées sur un site de reprise, sauvegardées dans un espace sécurisé ou déplacées entre les installations sur site, un cloud hybride et/ou un cloud public.
La déduplication opère au niveau du bloc de 4 Ko dans un volume FlexVol® complet et dans tous les volumes de l'agrégat, ce qui supprime les blocs de données dupliqués.
La déduplication repose sur la technologie des empreintes : des signatures digitales uniques pour tous les blocs de données de 4 Ko.
Lorsque les données sont écrites dans le système, le moteur de déduplication à la volée analyse les blocs entrants, crée une empreinte et la stocke dans un magasin de hachage (structure de données in-memory).
Une fois l'empreinte calculée, une recherche est effectuée dans le magasin de hachage. En cas de correspondance d'une empreinte dans le magasin de hachage, le bloc de données correspondant à l'empreinte dupliquée (bloc donneur) est recherché dans la mémoire cache :
Le moteur de déduplication en arrière-plan fonctionne de la même façon. Il analyse tous les blocs de données dans l'agrégat et supprime les doublons en comparant les empreintes des blocs et en procédant à une comparaison octet par octet afin de supprimer tous les faux positifs. Cette procédure assure également qu'aucune donnée n'est perdue pendant la déduplication.
La déduplication NetApp® présente des avantages considérables :
La déduplication est utile sur tous les types de workloads. Elle est cependant optimale dans les environnements virtuels où plusieurs machines virtuelles sont utilisées pour le développement/test et le déploiement d'applications.
Dans une infrastructure de postes de travail virtuels (VDI), la déduplication donne aussi de bons résultats, car les données dupliquées entre les postes de travail sont particulièrement nombreuses.
En revanche, la déduplication ne présente pas un grand intérêt pour certaines bases de données relationnelles comme Oracle et SQL, car souvent, chaque enregistrement a une clé unique qui empêche le moteur de déduplication d'identifier les doublons.
La déduplication est automatiquement activée sur tous les nouveaux volumes et agrégats des systèmes AFF. Sur les autres systèmes, la déduplication peut être activée par volume et/ou par agrégat.
Une fois la déduplication activée, elle est automatiquement appliquée à la volée et en arrière-plan afin de maximiser les économies.