Evaluación de la calidad de los datos con AWS Glue Studio
Calidad de datos de AWS Glue evalúa y supervisa la calidad de sus datos en función de las reglas que defina. Esto facilita la identificación de los datos que requieren acción. En AWS Glue Studio, puede agregar nodos de calidad de datos a su trabajo visual para crear reglas de calidad de datos en las tablas del catálogo de datos. Puede monitorear y evaluar los cambios aplicados en sus conjuntos de datos a medida que evolucionan. Para obtener información general sobre cómo trabajar con Data Quality de AWS Glue en AWS Glue Studio, consulte el siguiente vídeo.
A continuación se indican los pasos generales para trabajar con Calidad de datos de AWS Glue:
-
Cree reglas de calidad de datos: cree un conjunto de reglas de calidad de datos con el generador de DQDL; para ello, seleccione los conjuntos de reglas integrados que configure.
-
Configure un trabajo de calidad de datos: defina acciones en función de los resultados de calidad de los datos y las opciones de salida.
-
Guarde y ejecute un trabajo de calidad de datos: cree y ejecute un trabajo. Al guardar el trabajo, se guardarán los conjuntos de reglas que creó para el trabajo.
-
Supervise y revise los resultados de calidad de los datos: revise los resultados de calidad de los datos una vez finalizada la ejecución del trabajo. Si lo desea, programe el trabajo para una fecha futura.
Ventajas
Los analistas de datos, ingenieros de datos y científicos de datos pueden utilizar el nodo de evaluación de la calidad de los datos en AWS Glue Studio para analizar, configurar, supervisar y mejorar la calidad de los datos desde el editor de trabajos visuales. Las ventajas de utilizar el nodo de calidad de datos incluyen lo siguiente:
-
Puede detectar problemas de calidad de los datos: puede crear reglas que comprueben las características de los conjuntos de datos para determinar si hay problemas.
-
Empezar a trabajar es fácil: puede empezar con reglas y acciones prediseñadas.
-
Integración estrecha: puede utilizar nodos de calidad de datos en AWS Glue Studio porque Calidad de datos de AWS Glue se ejecuta sobre el Catálogo de datos de AWS Glue.