Referencia de tipo de regla de DQDL - AWS Glue

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Referencia de tipo de regla de DQDL

En esta sección, se proporciona una referencia para cada tipo de regla que admite Calidad de datos de AWS Glue.

nota
  • En la actualidad, DQDL no admite datos de columnas anidadas o de tipo lista.

  • Los valores entre corchetes de la siguiente tabla se sustituirán por la información dada en los argumentos de la regla.

  • Por lo general, las reglas requieren un argumento adicional para la expresión.

RuleType Descripción Argumentos Métricas informadas ¿Se admite como regla? ¿Se admite como analizador? ¿Devuelve los resultados de nivel de fila? ¿Soporte para reglas dinámicas? Genera observaciones ¿Admite la cláusula Where?
AggregateMatch Comprueba si dos conjuntos de datos coinciden mediante la comparación de métricas resumidas, como el importe total de ventas. Es útil para que las instituciones financieras comparen si todos los datos provienen de los sistemas de origen. Una o más agregaciones

Cuando los nombres de la primera y la segunda columna de agregación son los mismos:

Column.[Column].AggregateMatch

Cuando los nombres de la primera y la segunda columna de agregación son distintos:

Column.[Column1,Column2].AggregateMatch

No No No No No
AllStatistics Analizador independiente que recopila varias métricas para la columna dada de un conjunto de datos. El nombre de una sola columna

Para las columnas de todos los tipos:

Dataset.*.RowCount

Column.[Column].Completeness

Column.[Column].Uniqueness

Métricas adicionales para columnas con valores de cadena:

ColumnLength metrics

Métricas adicionales para columnas con valores numéricos:

ColumnValues metrics

No No No No No
ColumnCorrelation Compruebe lo bien que se correlacionan dos columnas. Exactamente dos columnas de nombres Multicolumn.[Column1,Column2].ColumnCorrelation No No
ColumnCount Comprueba si se ha eliminado alguna columna. Ninguna Dataset.*.ColumnCount No No
ColumnDataType Comprueba si una columna es compatible con un tipo de datos. Exactamente un nombre de columna Column.[Column].ColumnDataType.Compliance No No Sí, en la expresión de umbral a nivel de fila No
ColumnExists Comprueba si existen columnas en un conjunto de datos. Esto les permite a los clientes crear plataformas de datos de autoservicio para garantizar que determinadas columnas estén disponibles. Exactamente un nombre de columna N/A No No No No No
ColumnLength Comprueba si la longitud de los datos es coherente. Exactamente un nombre de columna

Column.[Column].MaximumLength

Column.[Column].MinimumLength

Métrica adicional cuando se da un umbral a nivel de fila:

Column.[Column].ColumnValues.Compliance

Sí, cuando se da un umbral a nivel de fila No Sí. Solo genera observaciones analizando la longitud mínima y máxima
ColumnNamesMatchPattern Comprueba si los nombres de las columnas coinciden con patrones definidos. Es útil para que los equipos de gobierno refuercen la coherencia de los nombres de las columnas. Una expresión regular para los nombres de las columnas Dataset.*.ColumnNamesPatternMatchRatio No No No No No
ColumnValues Comprueba si los datos son coherentes según los valores definidos. Esta regla admite expresiones regulares. Exactamente un nombre de columna

Column.[Column].Maximum

Column.[Column].Minimum

Métrica adicional cuando se da un umbral a nivel de fila:

Column.[Column].ColumnValues.Compliance

Sí, cuando se da un umbral a nivel de fila No Sí. Solo genera observaciones analizando los valores mínimo y máximo
Integridad Comprueba si hay espacios en blanco o CEROS en los datos. Exactamente un nombre de columna

Column.[Column].Completeness

CustomSql Los clientes pueden implementar prácticamente cualquier tipo de control de calidad de datos en SQL.

Una instrucción SQL

(Opcional) Un umbral a nivel de fila

Dataset.*.CustomSQL

Métrica adicional cuando se da un umbral a nivel de fila:

Dataset.*.CustomSQL.Compliance

No Sí, cuando se da un umbral a nivel de fila No No
DataFreshness Comprueba si los datos están actualizados. Exactamente un nombre de columna Column.[Column].DataFreshness.Compliance No No No
DataSetMatch Compara dos conjuntos de datos e identifica si están sincronizados.

Nombre de un conjunto de datos de referencia

Un mapeo de columnas

(Opcional) Columnas para comprobar si hay coincidencias

Dataset.[ReferenceDatasetAlias].DatasetMatch No No No
DistinctValuesCount Comprueba si hay valores duplicados. Exactamente un nombre de columna Column.[Column].DistinctValuesCount
DetectAnomalies Comprueba la presencia de anomalías en las métricas notificadas por otro tipo de regla. Un tipo de regla Métricas informadas por el argumento del tipo de regla No No No No No
Entropía Comprueba la entropía de los datos. Exactamente un nombre de columna Column.[Column].Entropy No No
IsComplete Comprueba si el 100 % de los datos está completos. Exactamente un nombre de columna Column.[Column].Completeness No No No
IsPrimaryKey Comprueba si una columna es una clave principal (no NULA y única). Exactamente un nombre de columna

Para una sola columna:

Column.[Column].Uniqueness

Para múltiples columnas:

Multicolumn.[CommaDelimitedColumns].Uniqueness

No No No
IsUnique Comprueba si el 100 % de los datos es único. Exactamente un nombre de columna Column.[Column].Uniqueness No No No
Media Comprueba si la media coincide con el umbral establecido. Exactamente un nombre de columna Column.[Column].Mean No
ReferentialIntegrity Comprueba si dos conjuntos de datos tienen integridad referencial.

Una o más columnas del conjunto de datos

Uno o más nombres de columnas del conjunto de datos de referencia

Column.[ReferenceDatasetAlias].ReferentialIntegrity No No No
RowCount Comprueba si los recuentos de registros coinciden con un umbral. Ninguna Dataset.*.RowCount No
RowCountMatch Comprueba si los recuentos de registros entre dos conjuntos de datos coinciden. Alias del conjunto de datos de referencia Dataset.[ReferenceDatasetAlias].RowCountMatch No No No No
StandardDeviation Comprueba si la desviación estándar coincide con el umbral. Exactamente un nombre de columna Column.[Column].StandardDeviation No
SchemaMatch Comprueba si el esquema entre dos conjuntos de datos coincide. Alias del conjunto de datos de referencia Dataset.[ReferenceDatasetAlias].SchemaMatch No No No No
Sum Comprueba si la suma coincide con un umbral establecido. Exactamente un nombre de columna Column.[Column].Sum No No
Singularidad Comprueba si la unicidad del conjunto de datos coincide con el umbral. Exactamente un nombre de columna Column.[Column].Uniqueness No
UniqueValueRatio Comprueba si la relación de valores únicos coincide con el umbral. Exactamente un nombre de columna Column.[Column].UniqueValueRatio No