Capas de datos recomendadas

Si trabaja con datos no confidenciales, como datos de información de identificación no personal (PII), le recomendamos que utilice al menos tres capas de datos diferentes en un lago de datos delNube de AWS.

Sin embargo, es posible que necesite capas adicionales en función de la complejidad de los datos y de los casos de uso. Por ejemplo, si trabaja con datos confidenciales (por ejemplo, datos de información personal), le recomendamos que utilice un depósito adicional de Amazon Simple Storage Service (Amazon S3) como landing zone y, a continuación, enmascare los datos antes de pasarlos a la capa de datos sin procesar. Para obtener más información al respecto, consulte laManejo de información confidencial sección de esta guía.

Cada capa de datos debe tener un bucket de S3 individual; en la siguiente tabla se describen nuestras capas de datos recomendadas:

Nombre de la capa de datos	Descripción	Ejemplo de estrategia de políticas de ciclo de vida
Crudo	Contiene los datos sin procesar y sin procesar y es la capa en la que los datos se ingieren en el lago de datos. Si es posible, debe mantener el formato de archivo original y activar el control de versiones en el bucket de S3.	Transcurrido un año, transfiera los archivos a la clase de almacenamiento de acceso infrecuente (IA) de Amazon S3. Tras dos años en Amazon S3 IA, archívelos en Amazon S3 Glacier.
Stage	Contiene datos procesados intermedios que están optimizados para el consumo (por ejemplo, archivos sin procesar convertidos de CSV a Apache Parquet o transformaciones de datos). UnAWS Glue trabajo lee los archivos de la capa sin procesar y valida los datos. A continuación, elAWS Glue trabajo almacena los datos en un archivo con formato Apache Parquet y los metadatos se almacenan en una tabla del catálogo deAWS Glue datos.	Los datos se pueden eliminar después de un período de tiempo definido o según los requisitos de su organización. Algunos derivados de datos (por ejemplo, una transformación de Apache Avro de un formato JSON original) se pueden eliminar del lago de datos después de un período de tiempo más corto (por ejemplo, después de 90 días).
Análisis	Contiene los datos agregados de sus casos de uso específicos en un formato listo para el consumo (por ejemplo, Apache Parquet).	Los datos se pueden mover a Amazon S3 IA y, a continuación, eliminarlos después de un período de tiempo definido o según los requisitos de su organización.

nota

Debe evaluar todas las estrategias políticas de ciclo de vida recomendadas en función de las necesidades de su organización, los requisitos reglamentarios, los patrones de consulta y las consideraciones de costos.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Introducción

Asignar un nombre a los cubos de S3 en sus capas de datos