Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
DataFreshness
Prüft die Aktualität der Daten in einer Spalte, indem die Differenz zwischen der aktuellen Uhrzeit und den Werten einer Datumsspalte ausgewertet wird. Sie können einen zeitbasierten Ausdruck für diesen Regeltyp angeben, um sicherzustellen, dass die Spaltenwerte aktuell sind.
Syntax
DataFreshness
<COL_NAME>
<EXPRESSION>
COL_NAME – Der Name der Spalte, anhand der Sie die Datenqualitätsregel auswerten möchten.
Unterstützte Spaltentypen: Datum
AUSDRUCK – Ein numerischer Ausdruck in Stunden oder Tagen. Sie müssen die Zeiteinheit in Ihrem Ausdruck angeben.
Beispiel: Datenaktualität
Die folgenden Beispielregeln prüfen die Datenaktualität.
DataFreshness "Order_Date" <= 24 hours DataFreshness "Order_Date" between 2 days and 5 days
Null-Verhalten
Die DataFreshness
Regeln schlagen bei Zeilen mit NULL
Werten fehl. Wenn die Regel aufgrund eines Nullwerts fehlschlägt, wird die Fehlerursache wie folgt angezeigt:
80.00 % of rows passed the threshold
wobei 20% der fehlgeschlagenen Zeilen die Zeilen mit enthaltenNULL
.
Die folgende zusammengesetzte Beispielregel bietet eine Möglichkeit, NULL
Werte explizit zuzulassen:
(DataFreshness "Order_Date" <= 24 hours) OR (ColumnValues "Order_Date" = NULL)
Datenaktualität für Amazon S3 S3-Objekte
Manchmal müssen Sie die Aktualität der Daten anhand der Erstellungszeit der Amazon S3 S3-Datei überprüfen. Zu diesem Zweck können Sie den folgenden Code verwenden, um den Zeitstempel abzurufen und ihn Ihrem Datenrahmen hinzuzufügen. Anschließend können Sie Datenaktualisierungsprüfungen durchführen.
df = glueContext.create_data_frame.from_catalog(database = "default", table_name = "mytable") df = df.withColumn("file_ts", df["_metadata.file_modification_time"]) Rules = [ DataFreshness "file_ts" < 24 hours ]