Comprobaciones de calidad - AWS Guía prescriptiva

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Comprobaciones de calidad

La calidad de los datos es una parte integral del proceso de limpieza de datos, aunque a menudo se pasa por alto. El siguiente diagrama muestra cómo las comprobaciones de calidad de los datos encajan en el ciclo de vida de la automatización de la ingeniería de datos y el control de acceso.

Diagrama de calidad

En la siguiente tabla se proporciona información general de las diferentes soluciones de calidad de los datos en función de los casos de uso.

Caso de uso

Solución

Ejemplo

Solución sin código para añadir condiciones de calidad a nivel de columna o tabla

AWS Glue DataBrew

Comprueba si todos los valores de las columnas están entre 1 y 12, o si una tabla o columna está vacía

Se agregó código personalizado a un trabajo de AWS Glue o a una solución sin código (en versión preliminar) para agregar condiciones de calidad a nivel de columna o tabla

AWS Glue los datos

Comprueba si la columna no first_name es nula o si phone_number contiene solo números o un operador «+» y/o funciones estadísticas, como promedio o suma

Comprobaciones

ETL de elección, como AWS Lambda, AWSGlue o Amazon EMR

Comprueba si el valor de la columna A es siempre mayor que el valor correspondiente de la columna B y la columna C, o si el valor de la columna siempre continent es geográficamente correcto y se deriva de la city columna

Solución sofisticada con un informe de métricas, validación de restricciones y sugerencias de restricciones

Deequ

Comprueba si la CompletenessConstraint métrica de integridad de la columna review_id es igual a 1