SUS04-BP05: Eliminación de datos innecesarios o redundantes
Elimine datos innecesarios o redundantes para minimizar los recursos de almacenamiento necesarios para guardar sus conjuntos de datos.
Patrones comunes de uso no recomendados:
-
Duplica datos que se pueden obtener o recrear fácilmente.
-
Realiza copia de seguridad de todos los datos sin tener en cuenta su criticidad.
-
Solo elimina datos de forma irregular, en eventos operativos o no los elimina en absoluto.
-
Almacena datos de forma redundante independientemente de la durabilidad del servicio de almacenamiento.
-
Activa el control de versiones de Amazon S3 sin ninguna justificación empresarial.
Beneficios de establecer esta práctica recomendada: la eliminación de datos redundantes reduce el tamaño de almacenamiento necesario de la carga de trabajo y su impacto medioambiental.
Nivel de riesgo expuesto si no se establece esta práctica recomendada: Mediana
Guía para la implementación
No almacene datos que no necesite. Automatice la eliminación de datos innecesarios. Use tecnologías que desdupliquen los datos en el nivel de archivo y de bloque. Aproveche las características de replicación y redundancia de datos nativos de los servicios.
Pasos para la aplicación
-
Evalúe si puede evitar almacenar datos mediante los conjuntos de datos existentes de disponibilidad pública en AWS Data Exchange
y Open Data on AWS (Datos abiertos en AWS). -
Use mecanismos que puedan desduplicar los datos en el nivel de bloque y de objeto. A continuación, se ofrecen algunos ejemplos de cómo desduplicar datos en AWS:
Storage service Deduplication mechanism Use AWS Lake Formation FindMatches
para encontrar registros coincidentes en un conjunto de datos (incluidos los que no tienen identificadores) con la nueva transformación de ML FindMatches. Active la desduplicación de datos en Amazon FSx para Windows.
Las instantáneas son copias de seguridad progresivas, lo que significa que solo se guardan los bloques del dispositivo que han cambiado después de la instantánea más reciente.
-
Analice el acceso de datos para identificar los datos innecesarios. Automatice las políticas de ciclo de vida. Aproveche las características nativas del servicio, como el tiempo de vida de Amazon DynamoDB, Amazon S3 Lifecycle o la retención de registros de Amazon CloudWatch para su eliminación.
-
Utilice las capacidades de virtualización de datos en AWS para mantener los datos en su origen y evitar la duplicación de datos.
-
Cloud Native Data Virtualization on AWS
(Virtualización de datos nativos en la nube en AWS) -
Lab: Optimize Data Pattern Using Amazon Redshift Data Sharing
(Laboratorio: optimizar el patrón de datos mediante el uso compartido de datos de Amazon Redshift)
-
-
Use una tecnología de copia de seguridad que pueda crear copias incrementales.
-
Aproveche la durabilidad de Amazon S3 y la replicación de Amazon EBS para conseguir sus objetivos de durabilidad en lugar de tecnologías autoadministradas (como una matriz redundante de discos independientes [RAID]).
-
Centralice los datos de registro y de seguimiento, desduplique las entradas de registro que sean idénticas y establezca mecanismos para ajustar los detalles cuando sea necesario.
-
Rellene las memorias caché previamente solo cuando se justifique.
-
Establezca la supervisión y automatización de la memoria caché para ajustar el tamaño de esta en consonancia.
-
Quite los despliegues y los recursos desfasados de los almacenes de objetos y las memorias caché periféricas al introducir nuevas versiones de su carga de trabajo.
Recursos
Documentos relacionados:
Vídeos relacionados:
-
Fuzzy Matching and Deduplicating Data with ML Transforms for AWS Lake Formation
(Concordancia difusa y desduplicación de datos con transformaciones de ML para AWS Lake Formation)
Ejemplos relacionados: