Dell DR4000 Manuel d'utilisation

Page 16

Advertising
background image

Lorsqu'un document est sauvegardé de manière répétée, les 0 et les 1 ne changent pas, car le fichier est simplement
dupliqué. Les similitudes entre les deux fichiers peuvent être aisément identifiées en utilisant la déduplication de bloc,
car leur séquence de 0 et de 1 est exactement identique. En revanche, il existe des différences dans les données en
ligne. Les données en ligne ont peu de duplications exactes. En effet, les fichiers de données en ligne incluent des
fichiers qui peuvent contenir une multitude de similitudes communes. Par exemple, la majorité des fichiers qui
contribuent à l'augmentation des besoins en stockage sont précompressés par leurs applications natives, telles que :

Images et vidéo (tels que les formats JPEG, MPEG, TIFF, GIF, PNG)

Documents composés (tels que les fichiers .zip, les courriers électroniques, les fichiers HTML, les pages Web et les

fichiers PDF)

Documents d'applications Microsoft Office (notamment Powerpoint, MS-Word, Excel et Sharepoint)

REMARQUE : Le taux d'économie du système DR Series est moindre lorsque les données qu'il ingère sont déjà

compressées par la source de données natives. Il est vivement recommandé de désactiver la compression

des données utilisée par la source de données. Pour optimiser les économies, les sources de données natives

doivent envoyer les données au système DR Series dans un état brut pour l'ingestion.

La déduplication de bloc n'est pas aussi efficace sur les fichiers compressés existants du fait de la nature de la
compression des fichiers, car les 0 et les 1 changent par rapport au format d'origine. La déduplication des données est
une forme spéciale de compression des données qui élimine un important volume de données redondantes. La
technique de compression améliore l'utilisation du stockage et peut être utilisée dans les transferts de données réseau
pour réduire le nombre d'octets à envoyer sur une liaison. En utilisant la déduplication, les segments de données
uniques, ou structures d'octets, peuvent être identifiés et stockés pendant l'analyse. Au cours de l'analyse, les autres
segments sont comparés à la copie stockée et lorsqu'une correspondance existe, le segment redondant est remplacé
par une petite référence qui pointe vers son segment stocké. Ceci permet de réduire le volume de données devant être
stocké ou transféré, ce qui permet de réduire la charge du réseau. Les économies réalisées au niveau du réseau sont
réalisées par la réplication des données déjà dédupliquées.
En revanche, les outils de compression de fichier standard identifient les sous-chaînes courtes répétitives dans chaque
fichier, la déduplication des données de stockage ayant pour objectif d'identifier et d'analyser les gros volumes de
données, tels que des fichiers entiers ou de grandes sections de fichiers identiques. Une fois ces opérations réalisées,
le processus permet au système de stocker uniquement une copie des données spécifiques. Cette copie est également
compressée en utilisant des techniques de compression de fichier unique. Par exemple, un système de messagerie peut
contenir 100 courriers électroniques ou plus dans lesquels le même fichier de 1 mégaoctets (Mo) est envoyé comme
pièce jointe. La section suivante explique comment cette situation est traitée :

Sans la déduplication des données, chaque fois que le système de messagerie est sauvegardé, les 100 instances de

la même pièce jointe sont enregistrées, ce qui nécessite 100 Mo d'espace de stockage.

Avec la déduplication des données, une seule instance de la pièce jointe est stockée (toutes les autres instances

font référence à la copie enregistrée) avec un taux de déduplication de 100/1 environ). Les segments uniques de

données qui représentent la pièce jointe sont dédupliqués au niveau de la segmentation du bloc.

REMARQUE : Le système DR Series ne permet pas de dédupliquer les données cryptées. Par conséquent,

aucune économie n'est générée par la déduplication en ingérant les données chiffrées. Le système DR Series

ne peut pas dédupliquer les données cryptées, car il considère que les données sont uniques et il ne peut

donc pas les dédupliquer.

Si des disques à cryptage automatique (SED) sont utilisés, lorsque les données sont lues par l'application de
sauvegarde, elles sont déchiffrées par le disque SED ou la couche de cryptage. Cela revient à ouvrir un document MS-
Word enregistré sur un disque SED. Ceci implique que les données stockées sur un disque SED peuvent être lues et
dédupliquées. Si vous activez le cryptage dans le logiciel de sauvegarde, vous perdez les économies de la
déduplication, car chaque fois que les données sont cryptées, le système DR Series considèrent qu'elles sont uniques.
Réplication : la réplication est le processus par lequel les mêmes données principales sont enregistrées à partir de
plusieurs dispositifs de stockage, dans le but de préserver la cohérence entre des ressources redondantes dans les
environnements de stockage de données. La réplication des données améliore le niveau de tolérance aux pannes, qui
accroît la fiabilité de la préservation des données enregistrées, et permet un accès facile aux mêmes données stockées.

16

Advertising