Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Referencia de tipo de regla de DQDL
En esta sección, se proporciona una referencia para cada tipo de regla que admite Calidad de datos de AWS Glue.
nota
En la actualidad, DQDL no admite datos de columnas anidadas o de tipo lista.
Los valores entre corchetes de la siguiente tabla se sustituirán por la información dada en los argumentos de la regla.
Por lo general, las reglas requieren un argumento adicional para la expresión.
RuleType | Descripción | Argumentos | Métricas informadas | ¿Se admite como regla? | ¿Se admite como analizador? | ¿Devuelve los resultados de nivel de fila? | ¿Soporte para reglas dinámicas? | Genera observaciones | ¿Admite la cláusula Where? |
---|---|---|---|---|---|---|---|---|---|
AggregateMatch | Comprueba si dos conjuntos de datos coinciden mediante la comparación de métricas resumidas, como el importe total de ventas. Es útil para que las instituciones financieras comparen si todos los datos provienen de los sistemas de origen. | Una o más agregaciones |
Cuando los nombres de la primera y la segunda columna de agregación son los mismos:
Cuando los nombres de la primera y la segunda columna de agregación son distintos:
|
Sí | No | No | No | No | No |
AllStatistics | Analizador independiente que recopila varias métricas para la columna dada de un conjunto de datos. | El nombre de una sola columna |
Para las columnas de todos los tipos:
Métricas adicionales para columnas con valores de cadena:
Métricas adicionales para columnas con valores numéricos:
|
No | Sí | No | No | No | No |
ColumnCorrelation | Compruebe lo bien que se correlacionan dos columnas. | Exactamente dos columnas de nombres | Multicolumn.[Column1,Column2].ColumnCorrelation |
Sí | Sí | No | Sí | No | Sí |
ColumnCount | Comprueba si se ha eliminado alguna columna. | Ninguna | Dataset.*.ColumnCount |
Sí | Sí | No | Sí | Sí | No |
ColumnDataType | Comprueba si una columna es compatible con un tipo de datos. | Exactamente un nombre de columna | Column.[Column].ColumnDataType.Compliance |
Sí | No | No | Sí, en la expresión de umbral a nivel de fila | No | Sí |
ColumnExists | Comprueba si existen columnas en un conjunto de datos. Esto les permite a los clientes crear plataformas de datos de autoservicio para garantizar que determinadas columnas estén disponibles. | Exactamente un nombre de columna | N/A | Sí | No | No | No | No | No |
ColumnLength | Comprueba si la longitud de los datos es coherente. | Exactamente un nombre de columna |
Métrica adicional cuando se da un umbral a nivel de fila:
|
Sí | Sí | Sí, cuando se da un umbral a nivel de fila | No | Sí. Solo genera observaciones analizando la longitud mínima y máxima | Sí |
ColumnNamesMatchPattern | Comprueba si los nombres de las columnas coinciden con patrones definidos. Es útil para que los equipos de gobierno refuercen la coherencia de los nombres de las columnas. | Una expresión regular para los nombres de las columnas | Dataset.*.ColumnNamesPatternMatchRatio |
Sí | No | No | No | No | No |
ColumnValues | Comprueba si los datos son coherentes según los valores definidos. Esta regla admite expresiones regulares. | Exactamente un nombre de columna |
Métrica adicional cuando se da un umbral a nivel de fila:
|
Sí | Sí | Sí, cuando se da un umbral a nivel de fila | No | Sí. Solo genera observaciones analizando los valores mínimo y máximo | Sí |
Integridad | Comprueba si hay espacios en blanco o CEROS en los datos. | Exactamente un nombre de columna |
|
Sí | Sí | Sí | Sí | Sí | Sí |
CustomSql | Los clientes pueden implementar prácticamente cualquier tipo de control de calidad de datos en SQL. |
Una instrucción SQL (Opcional) Un umbral a nivel de fila |
Métrica adicional cuando se da un umbral a nivel de fila:
|
Sí | No | Sí, cuando se da un umbral a nivel de fila | Sí | No | No |
DataFreshness | Comprueba si los datos están actualizados. | Exactamente un nombre de columna | Column.[Column].DataFreshness.Compliance |
Sí | No | Sí | No | No | Sí |
DataSetMatch | Compara dos conjuntos de datos e identifica si están sincronizados. |
Nombre de un conjunto de datos de referencia Un mapeo de columnas (Opcional) Columnas para comprobar si hay coincidencias |
Dataset.[ReferenceDatasetAlias].DatasetMatch |
Sí | No | Sí | Sí | No | No |
DistinctValuesCount | Comprueba si hay valores duplicados. | Exactamente un nombre de columna | Column.[Column].DistinctValuesCount |
Sí | Sí | Sí | Sí | Sí | Sí |
DetectAnomalies | Comprueba la presencia de anomalías en las métricas notificadas por otro tipo de regla. | Un tipo de regla | Métricas informadas por el argumento del tipo de regla | Sí | No | No | No | No | No |
Entropía | Comprueba la entropía de los datos. | Exactamente un nombre de columna | Column.[Column].Entropy |
Sí | Sí | No | Sí | No | Sí |
IsComplete | Comprueba si el 100 % de los datos está completos. | Exactamente un nombre de columna | Column.[Column].Completeness |
Sí | No | Sí | No | No | Sí |
IsPrimaryKey | Comprueba si una columna es una clave principal (no NULA y única). | Exactamente un nombre de columna |
Para una sola columna:
Para múltiples columnas:
|
Sí | No | Sí | No | No | Sí |
IsUnique | Comprueba si el 100 % de los datos es único. | Exactamente un nombre de columna | Column.[Column].Uniqueness |
Sí | No | Sí | No | No | Sí |
Media | Comprueba si la media coincide con el umbral establecido. | Exactamente un nombre de columna | Column.[Column].Mean |
Sí | Sí | Sí | Sí | No | Sí |
ReferentialIntegrity | Comprueba si dos conjuntos de datos tienen integridad referencial. |
Una o más columnas del conjunto de datos Uno o más nombres de columnas del conjunto de datos de referencia |
Column.[ReferenceDatasetAlias].ReferentialIntegrity |
Sí | No | Sí | Sí | No | No |
RowCount | Comprueba si los recuentos de registros coinciden con un umbral. | Ninguna | Dataset.*.RowCount |
Sí | Sí | No | Sí | Sí | Sí |
RowCountMatch | Comprueba si los recuentos de registros entre dos conjuntos de datos coinciden. | Alias del conjunto de datos de referencia | Dataset.[ReferenceDatasetAlias].RowCountMatch |
Sí | No | No | Sí | No | No |
StandardDeviation | Comprueba si la desviación estándar coincide con el umbral. | Exactamente un nombre de columna | Column.[Column].StandardDeviation |
Sí | Sí | Sí | Sí | No | Sí |
SchemaMatch | Comprueba si el esquema entre dos conjuntos de datos coincide. | Alias del conjunto de datos de referencia | Dataset.[ReferenceDatasetAlias].SchemaMatch |
Sí | No | No | Sí | No | No |
Sum | Comprueba si la suma coincide con un umbral establecido. | Exactamente un nombre de columna | Column.[Column].Sum |
Sí | Sí | No | Sí | No | Sí |
Singularidad | Comprueba si la unicidad del conjunto de datos coincide con el umbral. | Exactamente un nombre de columna | Column.[Column].Uniqueness |
Sí | Sí | Sí | Sí | No | Sí |
UniqueValueRatio | Comprueba si la relación de valores únicos coincide con el umbral. | Exactamente un nombre de columna | Column.[Column].UniqueValueRatio |
Sí | Sí | Sí | Sí | No | Sí |
Temas
- AggregateMatch
- ColumnCorrelation
- ColumnCount
- ColumnDataType
- ColumnExists
- ColumnLength
- ColumnNamesMatchPattern
- ColumnValues
- Integridad
- CustomSQL
- DataFreshness
- DataSetMatch
- DistinctValuesCount
- Entropía
- IsComplete
- IsPrimaryKey
- IsUnique
- Media
- ReferentialIntegrity
- RowCount
- RowCountMatch
- StandardDeviation
- Sum
- SchemaMatch
- Singularidad
- UniqueValueRatio
- DetectAnomalies