SUS04-BP05 Remover dados desnecessários ou redundantes
Remova dados desnecessários ou redundantes para minimizar os recursos de armazenamento necessários para armazenar seus conjuntos de dados.
Práticas comuns que devem ser evitadas:
-
Você duplica dados que podem ser facilmente obtidos ou recriados.
-
Você faz backup de todos os dados sem considerar sua criticidade.
-
Você apenas exclui dados irregularmente, em eventos operacionais ou não os exclui.
-
Você armazena dados de forma redundante, independentemente da durabilidade do serviço de armazenamento.
-
Você ativa o versionamento do Amazon S3 sem qualquer justificativa comercial.
Benefícios de implementar esta prática recomendada: a remoção de dados desnecessários reduz o tamanho de armazenamento necessário para sua workload e o impacto ambiental causado por ela.
Nível de risco exposto se esta prática recomendada não for estabelecida: Médio
Orientação para implementação
Ao remover conjuntos de dados desnecessários e redundantes, você pode reduzir o custo de armazenamento e a pegada ambiental. Essa prática também pode tornar a computação mais eficiente, pois os recursos computacionais processam apenas dados importantes em vez de dados desnecessários. Automatize a exclusão de dados desnecessários. Use tecnologias que eliminam dados duplicados em níveis de arquivo e bloco. Use recursos do serviço para replicação de dados nativos e redundância.
Etapas de implementação
-
Avalie conjuntos de dados públicos: avalie se você pode evitar o armazenamento de dados usando conjuntos de dados existentes e publicamente disponíveis em AWS Data Exchange
e Open Data on AWS . -
Elimine duplicações de dados: use mecanismos que possam eliminar duplicações de dados aos níveis do bloco e objeto. Aqui estão alguns exemplos de como eliminar duplicações dados na AWS:
Serviços de armazenamento Mecanismo de eliminação de duplicações Use o AWS Lake Formation FindMatches
para encontrar registros correspondentes em um conjunto de dados (incluindo aqueles sem identificadores) usando a nova transformada de ML do FindMatches. Use a eliminação de duplicação de dados no Amazon FSx para Windows.
Snapshots são backups incrementais, o que significa que somente os blocos no dispositivo que tiverem mudado depois do snapshot mais recente serão salvos.
-
Use políticas de ciclo de vida: use políticas de ciclo de vida para automatizar a exclusão de dados não utilizados. Use recursos nativos de serviços, como a vida útil do Amazon DynamoDB, a funcionalidade Ciclo de Vida do Amazon S3 ou a retenção de logs do Amazon CloudWatch, para exclusão.
-
Use a virtualização de dados: use os recursos de virtualização de dados na AWS para manter os dados em sua origem e evitar a duplicação de dados.
-
Use backup incremental: use tecnologia de backup capaz de fazer backups incrementais.
-
Use a durabilidade nativa: aproveite a durabilidade do Amazon S3 e a replicação do Amazon EBS, em vez de tecnologias autogerenciadas (como uma matriz redundante de discos independentes, ou RAID), para atingir suas metas de durabilidade.
-
Use o registro em log de maneira eficiente: centralize o log e rastreie os dados, elimine a duplicação de entradas de log idênticas e estabeleça mecanismos para ajustar a prolixidade quando necessário.
-
Use o armazenamento em cache de maneira eficiente: preencha os caches com antecedência somente quando justificável.
-
Estabeleça o monitoramento e a automação de cache para redimensionar o cache de forma adequada.
-
Remova versões antigas de ativos: remova implantações e ativos desatualizados dos armazenamentos de objetos e caches de borda ao enviar novas versões da workload.
Recursos
Documentos relacionados:
-
Eliminação da duplicação de dados no Amazon FSx para Windows File Server
-
Recursos do Amazon FSx para ONTAP, incluindo a eliminação da duplicação de dados
-
Usar o AWS Backup para fazer backup e restaurar sistemas de arquivos do Amazon EFS
-
Integrar e eliminar duplicações de conjuntos de dados usando o AWS Lake Formation
Vídeos relacionados:
Exemplos relacionados: