SUS04-BP05 Eliminazione dei dati ridondanti o non necessari

Elimina i dati non necessari o ridondanti per ridurre al minimo le risorse di archiviazione necessarie per memorizzare i set di dati.

Anti-pattern comuni:

Duplicazione dei dati che possono essere facilmente recuperati o ricreati.
Backup di tutti i dati senza prenderne in considerazione la criticità.
Cancellazione dei dati eseguita in modo irregolare, in occasione di eventi operativi o non eseguita affatto.
Archiviazione dei dati in modo ridondante, indipendentemente dall'affidabilità del servizio di archiviazione.
Abilitazione del versioning di Amazon S3 senza alcuna giustificazione aziendale.

Vantaggi dell'adozione di questa best practice: la rimozione dei dati non necessari riduce le dimensioni dello spazio di archiviazione necessario per il carico di lavoro e il relativo impatto ambientale.

Livello di rischio associato se questa best practice non fosse adottata: Medium

Guida all'implementazione

Non memorizzare i dati che non ti servono. Automatizza l'eliminazione dei dati non necessari. Utilizza tecnologie di backup che deduplicano i dati a livello di file e blocco. Sfrutta le funzionalità native di replica e ridondanza dei dati dei servizi.

Passaggi dell'implementazione

Valuta se è possibile evitare la memorizzazione dei dati utilizzando set di dati esistenti disponibili pubblicamente in AWS Data Exchange e Open Data su AWS.

Utilizza meccanismi che possano deduplicare i dati a livello di blocco e oggetto. Ecco alcuni esempi di come deduplicare i dati su AWS:

Storage service	Deduplication mechanism
Amazon S3	Utilizza AWS Lake Formation FindMatches per individuare i record corrispondenti in un set di dati (compresi quelli senza identificatori), utilizzando il nuovo FindMatches ML Transform.
Amazon FSx	Abilita la deduplicazione dei dati su Amazon FSx per Windows.
Snapshot di Amazon Elastic Block Store	Gli snapshot sono backup incrementali, il che significa che vengono salvati solo i blocchi sul dispositivo che sono stati modificati dopo lo snapshot più recente.

Analizza l'accesso ai dati per identificare quelli non necessari. Automatizza le policy per il ciclo di vita. Sfrutta le caratteristiche native del servizio, come il Time To Live di Amazon DynamoDB, Amazon S3 Lifecycle o la conservazione dei log di Amazon CloudWatch per l'eliminazione.
Utilizza le funzionalità di virtualizzazione dei dati di AWS per mantenere i dati sul loro sistema di origine ed evitare la loro duplicazione.
- Virtualizzazione dei dati nativa del cloud su AWS
- Lab: ottimizzare lo schema dei dati con la condivisione dei dati di Amazon Redshift
Utilizza una tecnologia di backup in grado di eseguire backup incrementali.
Per raggiungere i tuoi obiettivi di persistenza, sfrutta l'affidabilità di Amazon S3 e la replica di Amazon EBS invece di tecnologie da gestire in autonomia (come i dischi RAID).
Centralizza i log e traccia i dati, deduplica le voci di log identiche e stabilisci meccanismi per ottimizzarne la verbosità quando necessario.
Popola in anticipo le cache solo quando è necessario.
Definisci il monitoraggio e l'automazione della cache per ridimensionarla in base alle esigenze.
Rimuovi le implementazioni e le risorse obsolete dagli archivi di oggetti e dalle cache edge durante la distribuzione di nuove versioni del carico di lavoro.

Risorse

Documenti correlati:

Video correlati:

Matching fuzzy e deduplicazione di dati con trasformazioni ML per AWS Lake Formation

Esempi correlati:

Come faccio ad analizzare i miei log di accesso al server Amazon S3 utilizzando Amazon Athena?

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

SUS04-BP04 Utilizzo dell'elasticità e dell'automazione per espandere lo storage a blocchi o il file system

SUS04-BP06 Utilizzo di file system condivisi o archiviazione per accedere a dati comuni