Qu'est-ce que la déduplication des données ?

Rubriques

Partager cette page

La déduplication est un processus qui élimine les copies excessives de données et réduit considérablement les besoins en capacité de stockage.

La déduplication peut être exécutée à la volée pendant l'écriture des données dans le système de stockage et/ou en arrière-plan pour éliminer les doublons après l'écriture des données sur le disque.

Chez NetApp, la déduplication est une technologie sans perte de données, exécutée à la fois à la volée et en arrière-plan pour maximiser les économies. Elle est exécutée de manière opportuniste à la volée, de façon à ne pas interférer avec les opérations client, et de manière exhaustive en arrière-plan, pour maximiser les économies. La déduplication est activée par défaut et exécutée automatiquement sur tous les volumes et agrégats sans intervention manuelle.

La déduplication a un impact minime sur la performance, car elle s'exécute dans un domaine d'efficacité dédié qui est séparé du domaine de lecture/écriture client. Elle s'exécute en arrière-plan, indépendamment de l'application en cours ou de la façon dont on accède aux données (NAS ou SAN).

Les gains de la déduplication sont conservés lorsque les données sont déplacées : lorsqu'elles sont répliquées sur un site de reprise, sauvegardées dans un espace sécurisé ou déplacées entre les installations sur site, un cloud hybride et/ou un cloud public.

La déduplication réduit l'espace nécessaire pour le stockage d'un volume en éliminant les blocs de données dupliquées.

Fonctionnement de la déduplication

La déduplication opère au niveau du bloc de 4 Ko dans un volume FlexVol® complet et dans tous les volumes de l'agrégat, ce qui supprime les blocs de données dupliqués.

La déduplication repose sur la technologie des empreintes : des signatures digitales uniques pour tous les blocs de données de 4 Ko.

Lorsque les données sont écrites dans le système, le moteur de déduplication à la volée analyse les blocs entrants, crée une empreinte et la stocke dans un magasin de hachage (structure de données in-memory).

Une fois l'empreinte calculée, une recherche est effectuée dans le magasin de hachage. En cas de correspondance d'une empreinte dans le magasin de hachage, le bloc de données correspondant à l'empreinte dupliquée (bloc donneur) est recherché dans la mémoire cache :

S'il est trouvé, une comparaison octet par octet est effectuée entre le bloc de données actuel (bloc receveur) et le bloc donneur pour s'assurer de la correspondance exacte. Lors de cette vérification, le bloc receveur est partagé avec le bloc donneur correspondant sans être réellement écrit sur le disque. Seules les métadonnées sont mises à jour pour suivre les détails du partage.
Si le bloc donneur est introuvable en mémoire cache, il est pré-extrait du disque dans la mémoire cache pour effectuer une comparaison octet par octet, afin de s'assurer d'une correspondance exacte. Lors de la vérification, le bloc receveur est marqué comme doublon sans écriture réelle sur le disque. Les métadonnées sont mises à jour pour suivre les détails du partage.

Le moteur de déduplication en arrière-plan fonctionne de la même façon. Il analyse tous les blocs de données dans l'agrégat et supprime les doublons en comparant les empreintes des blocs et en procédant à une comparaison octet par octet afin de supprimer tous les faux positifs. Cette procédure assure également qu'aucune donnée n'est perdue pendant la déduplication.

Avantages de la déduplication NetApp

La déduplication NetApp^® présente des avantages considérables :

Fonctionne sur le stockage primaire, secondaire ou d'archivage, NetApp ou tiers
Indépendante de l'application
Indépendante du protocole
Impact minime sur les performances
Fonctionne sur NetApp AFF et FAS
Validation octet par octet
Peut être appliquée aux nouvelles données ou à celles précédemment stockées dans des volumes et des LUN
Exécution en dehors des périodes de forte activité
Intégrée avec d'autres technologies d'efficacité du stockage NetApp
Les économies résultant de la déduplication peuvent être héritées lors de l'utilisation de la technologie de réplication NetApp SnapMirror^® ou de la mise en cache intelligente Flash Cache^™
Gratuité

Cas d'utilisation de la déduplication

La déduplication est utile sur tous les types de workloads. Elle est cependant optimale dans les environnements virtuels où plusieurs machines virtuelles sont utilisées pour le développement/test et le déploiement d'applications.

Dans une infrastructure de postes de travail virtuels (VDI), la déduplication donne aussi de bons résultats, car les données dupliquées entre les postes de travail sont particulièrement nombreuses.

En revanche, la déduplication ne présente pas un grand intérêt pour certaines bases de données relationnelles comme Oracle et SQL, car souvent, chaque enregistrement a une clé unique qui empêche le moteur de déduplication d'identifier les doublons.

Configuration de la déduplication

La déduplication est automatiquement activée sur tous les nouveaux volumes et agrégats des systèmes AFF. Sur les autres systèmes, la déduplication peut être activée par volume et/ou par agrégat.

Une fois la déduplication activée, elle est automatiquement appliquée à la volée et en arrière-plan afin de maximiser les économies.