DataFreshness - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

DataFreshness

Vérifie l'actualisation des données d'une colonne en évaluant la différence entre l'heure actuelle et les valeurs d'une colonne de date. Pour ce type de règle, vous pouvez spécifier une expression temporelle afin de vérifier que les valeurs des colonnes sont à jour.

Syntaxe

DataFreshness <COL_NAME> <EXPRESSION>
  • COL_ NAME — Le nom de la colonne par rapport à laquelle vous souhaitez évaluer la règle de qualité des données.

    Types de colonne pris en charge : Date

  • EXPRESSION— Expression numérique exprimée en heures ou en jours. Vous devez spécifier l'unité de temps dans votre expression.

Exemple : actualisation des données

Les exemples de règles suivants vérifient l'actualisation des données.

DataFreshness "Order_Date" <= 24 hours DataFreshness "Order_Date" between 2 days and 5 days

Comportement nul

Les DataFreshness règles échoueront pour les lignes contenant des NULL valeurs. Si la règle échoue en raison d'une valeur nulle, la raison de l'échec s'affichera comme suit :

80.00 % of rows passed the threshold

où 20 % des lignes qui ont échoué incluent les lignes avecNULL.

L'exemple de règle composée suivant fournit un moyen d'autoriser explicitement les NULL valeurs :

(DataFreshness "Order_Date" <= 24 hours) OR (ColumnValues "Order_Date" = NULL)

Data Freshness pour les objets Amazon S3

Vous devrez parfois valider l'actualité des données en fonction de l'heure de création du fichier Amazon S3. Pour ce faire, vous pouvez utiliser le code suivant pour obtenir l'horodatage et l'ajouter à votre dataframe, puis appliquer des contrôles de fraîcheur des données.

df = glueContext.create_data_frame.from_catalog(database = "default", table_name = "mytable") df = df.withColumn("file_ts", df["_metadata.file_modification_time"]) Rules = [ DataFreshness "file_ts" < 24 hours ]