Calidad de datos de AWS Glue
Calidad de datos de AWS Glue permite medir y supervisar la calidad de los datos para que se puedan tomar buenas decisiones empresariales. Creado a partir del marco de DeeQu de código abierto, Calidad de los datos de AWS Glue proporciona una experiencia administrada y sin servidor. AWS Glue Calidad de datos funciona con el lenguaje de definición de calidad de datos (DQDL), que es un lenguaje específico de un dominio que se utiliza para definir las reglas de calidad de datos. Para obtener más información sobre el DQDL y los tipos de reglas compatibles, consulte Referencia del lenguaje de definición de calidad de datos (DQDL).
Para conocer los detalles adicionales del producto y los precios, consulte la página de servicio de Calidad de datos de AWS Glue
Beneficios y características principales
Los beneficios y las características clave de la calidad de los datos de AWS Glue incluyen:
-
Sin servidor: no requiere instalación, aplicación de parches ni mantenimiento.
-
Comience rápidamente: Calidad de datos de AWS Glue analiza rápidamente sus datos y crea reglas de calidad de datos para usted. Puede empezar con dos clics: “Crear reglas de calidad de datos → Recomendar reglas”.
-
Detección de problemas de calidad de los datos: use el machine learning (ML) para detectar anomalías y problemas de calidad de los datos difíciles de detectar.
-
Improvise sus reglas: con más de 25 reglas de calidad de datos listas para usar con las que empezar, puede crear reglas que se adapten a sus necesidades específicas.
-
Evalúe la calidad y tome decisiones empresariales con confianza: una vez que evalúe las reglas, obtendrá una puntuación de calidad de los datos que proporciona una visión general del estado de sus datos. Utilice la puntuación de calidad de los datos para tomar decisiones empresariales fiables.
-
Céntrese en los datos incorrectos: Calidad de datos de AWS Glue ayuda a identificar los registros exactos que provocaron la caída de sus puntajes de calidad. Identifíquelos fácilmente, póngalos en cuarentena y corríjalos.
-
Pago por uso: no necesita licencias anuales para utilizar calidad de los datos de AWS Glue.
-
Sin restricciones: Calidad de datos de AWS Glue se basa en DeeQu de código abierto, lo que permite mantener las reglas que crea en un lenguaje abierto.
-
Controles de calidad de los datos: puede aplicar controles de calidad de los datos en los procesos ETL de Data Catalog y AWS Glue, lo que permitirá administrar la calidad de los datos en reposo y en tránsito.
-
Detección de calidad de datos basada en ML: use el machine learning (ML) para detectar anomalías y problemas de calidad de los datos difíciles de detectar.
-
Lenguaje abierto para expresar las reglas: garantiza que las reglas de calidad de los datos se creen de forma coherente y sencilla. Los usuarios empresariales pueden expresar fácilmente las reglas de calidad de datos en un lenguaje sencillo que puedan entender. Para los ingenieros, este lenguaje proporciona la flexibilidad necesaria para generar código, implementar un control de versiones coherente y automatizar las implementaciones.
Funcionamiento
Hay dos puntos de partida para Calidad de datos de AWS Glue: los trabajos ETL AWS Glue Data Catalog y AWS Glue. En esta sección se proporciona información general de los casos de uso y de las características de AWS Glue que admite cada punto de entrada.
Calidad de los datos para AWS Glue Data Catalog
Calidad de datos de AWS Glue evalúa los objetos que se almacenan en el. AWS Glue Data Catalog Ofrece a los no codificadores una forma sencilla de configurar las reglas de calidad de los datos. Entre estas personas, se incluyen administradores de datos y analistas de negocios.
Puede elegir esta opción para los siguientes casos de uso:
-
Desea realizar tareas de calidad de datos en conjuntos de datos que ya ha catalogado en AWS Glue Data Catalog.
-
Trabaja en la gobernanza de datos y necesita identificar o evaluar los problemas de calidad de los datos en su lago de datos de forma continua.
Puede administrar la calidad de los datos del catálogo de datos mediante las siguientes interfaces:
-
La consola de administración de AWS Glue
-
Las API de AWS Glue
Para empezar con Calidad de datos de AWS Glue para AWS Glue Data Catalog, consulte Introducción a AWS Glue Data Quality para el Data Catalog.
Calidad de los datos para los trabajos de ETL de AWS Glue
Calidad de datos de AWS Glue para los trabajos de AWS Glue ETL permite realizar tareas proactivas de calidad de datos. Las tareas proactivas ayudan a identificar y filtrar los datos incorrectos antes de cargar un conjunto de datos en el lago de datos.
Puede elegir la calidad de los datos para los trabajos de ETL en los siguientes casos de uso:
-
Desea incorporar tareas de calidad de datos en sus trabajos de ETL
-
Desea escribir código que defina las tareas de calidad de los datos en los scripts de ETL
-
Desea administrar la calidad de los datos que fluyen en los procesos de datos visuales
Puede administrar la calidad de los datos para los trabajos de ETL mediante las siguientes interfaces:
-
AWS Glue Studio, cuadernos de AWS Glue Studio y sesiones interactivas de AWS Glue
-
Bibliotecas de AWS Glue para secuencias de comandos de ETL
-
Las API de AWS Glue
Para empezar con la calidad de los datos para los trabajos de ETL, consulte Tutorial: Introducción a Calidad de datos en la Guía del usuario de AWS Glue Studio.
Comparación de la calidad de los datos del catálogo de datos con la calidad de los datos para los trabajos de ETL
En esta tabla se proporciona información general de las características que admite cada punto de entrada para Calidad de datos de AWS Glue.
Característica | Calidad de datos para el catálogo de datos | Calidad de los datos para los trabajos de ETL |
---|---|---|
Origen de datos | Orígenes de Amazon S3, Amazon Redshift y JDBC compatibles con el catálogo de datos y formatos de lago de datos transaccionales, como Apache Iceberg, Apache Hudi y Delta Lake. Tenga en cuenta que si las tablas están administradas por AWS Lake Formation, no son compatibles con las tablas de Iceberg, Delta o HUDI. Las vistas de Amazon Athena catalogadas en AWS Glue Data Catalog no son compatibles. | Todos los orígenes de datos son compatibles con AWS Glue, incluidos los conectores personalizados y los conectores de terceros. |
Recomendaciones sobre reglas de calidad de datos | Compatible | No compatible |
Crear y ejecutar reglas de DQDL | Soportado | Soportado |
Escalado automático | No compatible | Compatible |
Compatibilidad con AWS Glue Flex | No compatible | Compatible |
Programación | Compatible al evaluar las reglas de calidad de los datos y mediante Step Functions. | Compatible al usar Step Functions y flujos de trabajo. |
Identificación de registros que no superaron las comprobaciones de calidad de los datos | No compatible | Compatible |
Integración con Amazon Eventbridge | Soportado | Soportado |
Integración con AWS CloudWatch | Soportado | Soportado |
Escritura de resultados de calidad de datos en Amazon S3 | Soportado | Soportado |
Calidad de datos incremental | Compatible mediante predicados insertados | Compatible mediante marcadores de AWS Glue |
Compatibilidad con AWS CloudFormation | Soportado | Soportado |
Detección de anomalías basada en machine learning | No compatible | Compatible |
Reglas dinámicas | No compatible | Compatible |
Consideraciones
Tenga en cuenta los siguientes elementos antes de utilizar Calidad de datos de AWS Glue:
-
Las reglas de calidad de datos no pueden evaluar los orígenes de datos anidados o de tipo lista. Consulte Aplanamiento de estructuras anidadas.
Terminología
En la siguiente lista se definen los términos relacionados con Calidad de datos de AWS Glue.
- Lenguaje de definición de calidad de datos (DQDL)
-
Lenguaje específico del dominio que puede utilizar para escribir reglas de Calidad de datos de AWS Glue.
Para obtener más información sobre DQDL, consulte la guía de Referencia del lenguaje de definición de calidad de datos (DQDL).
- calidad de datos
-
Describe qué tan bien un conjunto de datos cumple su propósito específico. AWS Glue Calidad de datos evalúa las reglas con respecto a un conjunto de datos para medir la calidad de los datos. Cada regla comprueba características específicas, como la actualización o integridad de los datos. Para cuantificar la calidad de los datos, puede utilizar una puntuación de calidad de datos.
- puntuación de calidad de datos
-
El porcentaje de reglas de calidad de datos que cumplen (el resultado es true [verdadero]) al evaluar un conjunto de reglas con Calidad de datos de AWS Glue.
- regla
-
Una expresión de DQDL que comprueba los datos para detectar una característica específica y devuelve un valor booleano. Para obtener más información, consulte Estructura de la regla.
- analizador
-
Expresión DQDL que recopila estadísticas de datos. Un analizador recopila estadísticas de datos que los algoritmos de aprendizaje automático pueden utilizar para detectar anomalías y problemas de calidad de los datos difíciles de detectar a lo largo del tiempo.
- conjunto de reglas
-
Un recurso de AWS Glue que comprende un conjunto de reglas de la calidad de los datos. El conjunto de reglas debe estar asociado a una tabla de AWS Glue Data Catalog. Al guardar un conjunto de reglas, AWS Glue asigna un nombre de recurso de Amazon (ARN) al conjunto de reglas.
- puntuación de calidad de datos
-
El porcentaje de reglas de calidad de datos que cumplen (el resultado es true [verdadero]) al evaluar un conjunto de reglas con Calidad de datos de AWS Glue.
- observación
-
Información no confirmada que se genera por AWS Glue cuando se analizan las estadísticas de datos recopiladas por las reglas y los analizadores a lo largo del tiempo.
Límites
Límites del servicio de Calidad de datos de AWS Glue:
-
Puede tener 2000 reglas en un conjunto de reglas. Si sus conjuntos de reglas son más grandes, le recomendamos dividirlos en varios conjuntos de reglas.
-
El tamaño del conjunto de reglas es de 65 KB. Si sus conjuntos de reglas son más grandes, le recomendamos dividirlos en varios conjuntos de reglas.
-
Calidad de datos de AWS Glue recopila estadísticas cuando crea una regla o un analizador. El almacenamiento de estas estadísticas no supone costo alguno. Sin embargo, hay un límite de 100 000 estadísticas por cuenta, y estas estadísticas se conservarán durante un máximo de dos años.
Notas de publicación sobre Calidad de datos de AWS Glue
En este tema se describen las características introducidas en Calidad de datos de AWS Glue.
Disponibilidad general: características nuevas
Las siguientes características nuevas están disponibles con la disponibilidad general de Calidad de datos de AWS Glue:
La capacidad de identificar qué registros no pasaron las comprobaciones de calidad de los datos ahora es compatible con AWS Glue Studio
Nuevos tipos de reglas de calidad de los datos, como la validación de la integridad referencial de los datos entre dos conjuntos de datos, la comparación de datos entre dos conjuntos de datos y las comprobaciones del tipo de datos
Experiencia de usuario mejorada en AWS Glue Data Catalog
Compatibilidad con Apache Iceberg, Apache Hudi y Delta Lake
Compatibilidad con Amazon Redshift
Notificación simplificada con Amazon EventBridge
Compatibilidad con AWS CloudFormation para crear conjuntos de reglas
Mejoras en el rendimiento: opción de almacenamiento en caché en ETL y AWS Glue Studio para un rendimiento más rápido al evaluar la calidad de los datos
27 de noviembre de 2023 (Vista previa)
-
Las capacidades de detección de anomalías impulsadas por ML ahora están disponibles en AWS Glue ETL y AWS Glue Studio. Con esto, ahora es posible detectar anomalías y problemas de calidad de datos difíciles de detectar.
-
Las reglas dinámicas le permiten dar umbrales dinámicos (por ejemplo:
RowCount> avg(last(10))
).
12 de marzo de 2024
-
Mejoras del DQDL
26 de junio de 2024
-
Mejoras del DQDL
-
El DQDL ahora admite la cláusula WHERE para que pueda filtrar los datos antes de aplicar las reglas de DQ.
-
7 de agosto de 2024
-
La detección de anomalías y las reglas dinámicas ya están disponibles con carácter general