Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Cette section fournit une référence pour chaque type de règle pris en charge par AWS Glue Data Quality.
Note
Le langage DQDL ne prend actuellement pas en charge les données de colonnes imbriquées ou de type liste.
Les valeurs entre crochets dans le tableau ci-dessous seront remplacées par les informations fournies dans les arguments des règles.
Les règles nécessitent généralement un argument supplémentaire pour l'expression.
Ruletype | Description | Arguments | Métriques rapportées | Prise en charge en tant que règle ? | Prise en charge en tant qu’analyseur ? | Renvoie des résultats au niveau des lignes ? | Prise en charge des règles dynamiques ? | Génère des observations | Supporte la syntaxe de la clause Where ? |
---|---|---|---|---|---|---|---|---|---|
AggregateMatch | Vérifie si deux jeux de données correspondent en comparant des métriques récapitulatives telles que le montant total des ventes. Utile pour permettre aux institutions financières de vérifier si toutes les données sont ingérées à partir de systèmes sources. | Une ou plusieurs agrégations |
Lorsque les noms de la première et de la deuxième colonne d’agrégation correspondent :
Lorsque les noms de la première et de la deuxième colonne d’agrégation sont différents :
|
Oui | Non | Non | Non | Non | Non |
AllStatistics | Analyseur autonome permettant de recueillir plusieurs métriques pour la colonne fournie dans un ensemble de données. | Un nom de colonne unique |
Pour les colonnes de tous types :
Métriques supplémentaires pour les colonnes à valeur de chaîne :
Métriques supplémentaires pour les colonnes à valeur numérique :
|
Non | Oui | Non | Non | Non | Non |
ColumnCorrelation | Vérifie si deux colonnes sont bien corrélées. | Exactement deux noms de colonne | Multicolumn.[Column1,Column2].ColumnCorrelation |
Oui | Oui | Non | Oui | Non | Oui |
ColumnCount | Vérifie si des colonnes sont supprimées. | Aucun | Dataset.*.ColumnCount |
Oui | Oui | Non | Oui | Oui | Non |
ColumnDataType | Vérifie si une colonne est conforme à un type de données. | Exactement un nom de colonne | Column.[Column].ColumnDataType.Compliance |
Oui | Non | Non | Oui, dans l’expression de seuil au niveau de la ligne | Non | Oui |
ColumnExists | Vérifie si des colonnes existent dans un jeu de données. Cela permet aux clients de créer des plateformes de données en libre-service pour s'assurer que certaines colonnes sont disponibles. | Exactement un nom de colonne | N/A | Oui | Non | Non | Non | Non | Non |
ColumnLength | Vérifie si la longueur des données est cohérente. | Exactement un nom de colonne |
Métrique supplémentaire lorsque le seuil au niveau de la ligne est fourni :
|
Oui | Oui | Oui, lorsque le seuil au niveau de la ligne est fourni | Non | Oui. Génère uniquement des observations en analysant les longueurs minimale et maximale | Oui |
ColumnNamesMatchPattern | Vérifie si les noms de colonnes correspondent aux modèles définis. Utile pour les équipes de gouvernance afin d'assurer la cohérence des noms de colonnes. | Une expression régulière pour les noms de colonne | Dataset.*.ColumnNamesPatternMatchRatio |
Oui | Non | Non | Non | Non | Non |
ColumnValues | Vérifie si les données sont cohérentes par rapport aux valeurs définies. Cette règle prend en charge les expressions régulières. | Exactement un nom de colonne |
Métrique supplémentaire lorsque le seuil au niveau de la ligne est fourni :
|
Oui | Oui | Oui, lorsque le seuil au niveau de la ligne est fourni | Non | Oui. Génère uniquement des observations en analysant les valeurs minimales et maximales | Oui |
Intégralité | Vérifie la présence de données vides ou NULLs vides. | Exactement un nom de colonne |
|
Oui | Oui | Oui | Oui | Oui | Oui |
CustomSql | Les clients peuvent implémenter presque tous les types de contrôles de qualité des données dans SQL. |
Une instruction SQL (Facultatif) Un seuil au niveau de la ligne |
Métrique supplémentaire lorsque le seuil au niveau de la ligne est fourni :
|
Oui | Non | Oui, lorsque le seuil au niveau de la ligne est fourni | Oui | Non | Non |
DataFreshness | Vérifie si les données sont récentes. | Exactement un nom de colonne | Column.[Column].DataFreshness.Compliance |
Oui | Non | Oui | Non | Non | Oui |
DatasetMatch | Compare deux jeux de données et détermine s'ils sont synchronisés. |
Nom d’un jeu de données de référence Un mappage de colonnes (Facultatif) Colonnes pour vérifier les correspondances |
Dataset.[ReferenceDatasetAlias].DatasetMatch |
Oui | Non | Oui | Oui | Non | Non |
DistinctValuesCount | Vérifie la présence de valeurs dupliquées. | Exactement un nom de colonne | Column.[Column].DistinctValuesCount |
Oui | Oui | Oui | Oui | Oui | Oui |
DetectAnomalies | Vérifie la présence d’anomalies dans les métriques rapportées par un autre type de règle. | Un type de règle | Métrique(s) rapportée(s) par l’argument du type de règle | Oui | Non | Non | Non | Non | Non |
Entropie | Vérifie l'entropie des données. | Exactement un nom de colonne | Column.[Column].Entropy |
Oui | Oui | Non | Oui | Non | Oui |
IsComplete | Vérifie si 100 % des données sont complètes. | Exactement un nom de colonne | Column.[Column].Completeness |
Oui | Non | Oui | Non | Non | Oui |
IsPrimaryKey | Vérifie si une colonne est une clé primaire (non NULL et unique). | Exactement un nom de colonne |
Pour une seule colonne :
Pour plusieurs colonnes :
|
Oui | Non | Oui | Non | Non | Oui |
IsUnique | Vérifie si 100 % des données sont uniques. | Exactement un nom de colonne | Column.[Column].Uniqueness |
Oui | Non | Oui | Non | Non | Oui |
Mean | Vérifie si la moyenne correspond au seuil défini. | Exactement un nom de colonne | Column.[Column].Mean |
Oui | Oui | Oui | Oui | Non | Oui |
ReferentialIntegrity | Vérifie si deux jeux de données ont une intégrité référentielle. |
Un ou plusieurs noms de colonne provenant du jeu de données Un ou plusieurs noms de colonnes issus du jeu de données de référence |
Column.[ReferenceDatasetAlias].ReferentialIntegrity |
Oui | Non | Oui | Oui | Non | Non |
RowCount | Vérifie si le nombre d'enregistrements correspond à un seuil. | Aucun | Dataset.*.RowCount |
Oui | Oui | Non | Oui | Oui | Oui |
RowCountMatch | Vérifie si le nombre d'enregistrements entre deux jeux de données correspond. | Alias de jeu de données de référence | Dataset.[ReferenceDatasetAlias].RowCountMatch |
Oui | Non | Non | Oui | Non | Non |
StandardDeviation | Vérifie si l'écart type correspond au seuil. | Exactement un nom de colonne | Column.[Column].StandardDeviation |
Oui | Oui | Oui | Oui | Non | Oui |
SchemaMatch | Vérifie si le schéma entre deux jeux de données correspond. | Alias de jeu de données de référence | Dataset.[ReferenceDatasetAlias].SchemaMatch |
Oui | Non | Non | Oui | Non | Non |
Somme | Vérifie si la somme correspond à un seuil défini. | Exactement un nom de colonne | Column.[Column].Sum |
Oui | Oui | Non | Oui | Non | Oui |
Unicité | Vérifie si l'unicité du jeu de données correspond au seuil. | Exactement un nom de colonne | Column.[Column].Uniqueness |
Oui | Oui | Oui | Oui | Non | Oui |
UniqueValueRatio | Vérifie si le ratio de valeur unique correspond au seuil. | Exactement un nom de colonne | Column.[Column].UniqueValueRatio |
Oui | Oui | Oui | Oui | Non | Oui |
FileFreshness | Vérifie si les fichiers d'Amazon S3 sont récents. | Chemin du fichier ou du dossier et seuil. |
|
Oui | Non | Non | Non | Non | Non |
FileMatch | Vérifie si le contenu du fichier correspond à une somme de contrôle ou à un autre fichier. Cette règle utilise des checksums pour valider si deux fichiers sont identiques. | Chemin du fichier ou du dossier source et chemin du fichier ou du dossier cible. | Aucune statistique n'est générée. | Oui | Non | Non | Non | Non | Non |
FileSize | Vérifie si la taille d'un fichier correspond à une condition spécifiée. | Chemin et seuil du fichier ou du dossier. |
|
Oui | Non | Non | Non | Non | Non |
FileUniqueness | Vérifie si les fichiers sont uniques à l'aide de sommes de contrôle. | Chemin et seuil du fichier ou du dossier. |
|
Oui | Non | Non | Non | Non | Non |