SUS04-BP05 Supprimer les données inutiles ou redondantes

Supprimez les données inutiles ou redondantes pour minimiser les ressources de stockage requises pour stocker vos jeux de données.

Anti-modèles courants :

Vous dupliquez des données qui peuvent être facilement obtenues ou recréées.
Vous sauvegardez toutes les données sans tenir compte de leur criticité.
Vous ne supprimez les données que de façon irrégulière, sur les événements opérationnels ou pas du tout.
Vous stockez les données de manière redondante, quelle que soit la durabilité du service de stockage.
Vous activez la gestion des versions Amazon S3 sans justification professionnelle.

Avantages liés au respect de cette pratique : la suppression des données inutiles réduit la taille de stockage requise pour votre charge de travail et l'impact environnemental de la charge de travail.

Niveau de risque exposé si cette bonne pratique n'est pas respectée : Moyenne entreprise

Directives d'implémentation

Ne stockez pas les données dont vous n'avez pas besoin. Automatisez la suppression des données inutiles. Utilisez des technologies qui dédupliquent les données au niveau du fichier et du bloc. Utilisez la réplication des données native et les fonctionnalités de redondance des services.

Étapes d'implémentation

Évaluez si vous pouvez éviter de stocker les données en utilisant des jeux de données disponibles pour le public dans AWS Data Exchange et des données ouvertes sur AWS.

Utilisez des mécanismes qui peuvent dédupliquer les données au niveau du bloc et de l'objet. Voici quelques exemples de déduplication des données sur AWS :

Storage service	Deduplication mechanism
Amazon S3	Utilisez AWS Lake Formation FindMatches afin de trouver des enregistrements correspondants dans un jeu de données (y compris ceux sans identifiants) en utilisant la nouvelle transformation ML FindMatches.
Amazon FSx	Activez la déduplication des données sur Amazon FSx for Windows.
Instantanés Amazon Elastic Block Store	Les instantanés sont des sauvegardes incrémentielles, ce qui signifie que seuls les blocs de l'appareil qui ont changé après votre instantané le plus récent sont enregistrés.

Analysez l'accès aux données pour identifier les données inutiles. Automatisez les politiques de cycle de vie. Utilisez des fonctionnalités de service natives telles que la durée de vie Amazon DynamoDB, le cycle de vie Amazon S3 ou la conservation des journaux Amazon CloudWatch pour la suppression.
Utilisez les capacités de virtualisation des données sur AWS afin de maintenir les données à leur source et d'éviter leur duplication.
- Virtualisation des données natives du cloud sur AWS
- Lab: Optimize Data Pattern Using Amazon Redshift Data Sharing (Atelier : optimiser le modèle de données à l'aide du partage de données)
Utilisez une technologie de sauvegarde qui peut réaliser des sauvegardes incrémentielles.
Utilisez la durabilité de Amazon S3 et la réplication d'Amazon EBS pour atteindre vos objectifs de durabilité au lieu des technologies autogérées (comme un tableau redondant de disques indépendants (RAID)).
Centralisez les données de journalisation et de suivi, dédupliquez les entrées de journal identiques et établissez des mécanismes pour ajuster le niveau d'informations transmises, le cas échéant.
Préremplissez les caches uniquement lorsque cela est justifié.
Établissez la surveillance et l'automatisation des caches pour redimensionner correctement les caches.
Supprimez les déploiements et les ressources obsolètes des magasins d'objets et des caches périphériques lors de la transmission des nouvelles versions de votre charge de travail.

Ressources

Documents connexes :

Vidéos connexes :

Fuzzy Matching and Deduplicating Data with ML Transforms for AWS Lake Formation

Exemples connexes :

Comment analyser les journaux d'accès au serveur Amazon S3 à l'aide d'Amazon Athena ?

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

SUS04-BP04 Utiliser l'élasticité et l'automatisation pour étendre le stockage par blocs ou le système de fichiers

SUS04-BP06 Utiliser des systèmes de fichiers partagés ou le stockage pour accéder aux données courantes