FileFreshness - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

FileFreshness

Anmerkung

Für alle dateibasierten Regeln müssen Sie den Job in derselben Region wie Ihr Bucket ausführen. Wenn Sie versuchen, einen Amazon S3-Ordner zu analysieren, muss dieser Ordner in Amazon S3 existieren.

FileFreshness stellt sicher, dass Ihre Datendateien auf der Grundlage der von Ihnen angegebenen Bedingungen aktuell sind. Es verwendet den Zeitpunkt der letzten Änderung Ihrer Dateien, um sicherzustellen, dass die Datendateien oder der gesamte Ordner korrekt sind up-to-date.

Diese Regel erfasst zwei Messwerte:

  • FileFreshness Einhaltung auf der Grundlage der von Ihnen eingerichteten Regel

  • Anzahl der Dateien, die für den Tag geändert wurden

{"Dataset.*.FileFreshness.Compliance":1,"Dataset.*.FileCount":1}

Bei der Erkennung von Anomalien werden diese Messwerte nicht berücksichtigt.

Die Aktualität der Datei wird überprüft

Die folgende Regel stellt sicher, dass tickets.parquet in den letzten 24 Stunden erstellt wurde.

FileFreshness "s3://bucket/artifacts/file/tickets/tickets.parquet" > (now() - 24 hours)

Die Aktualität der Ordner wird überprüft

Die folgende Regel gilt, wenn alle Dateien im Ordner in den letzten 24 Stunden erstellt oder geändert wurden.

FileFreshness "s3://bucket/" >= (now() -1 days) FileFreshness "s3://bucket/artifacts/file/tickets/" >= (now() - 24 hours)

Überprüfung der Aktualität von Ordnern oder Dateien anhand eines Schwellenwerts

Die folgende Regel gilt als gültig, wenn 10% der Dateien im Ordner „Tickets“ in den letzten 10 Tagen erstellt oder geändert wurden.

FileFreshness "s3://bucket/artifacts/file/tickets/" < (now() - 10 days) with threshold > 0.1

Überprüfung von Dateien oder Ordnern mit bestimmten Daten

Sie können die Aktualität von Dateien für bestimmte Tage überprüfen.

FileFreshness "s3://bucket/artifacts/file/tickets/" > "2020-01-01" FileFreshness "s3://bucket/artifacts/file/tickets/" between "2023-01-01" and "2024-01-01"

Dateinamen direkt aus Datenrahmen ableiten

Sie müssen nicht immer einen Dateipfad angeben. Wenn Sie beispielsweise die Regel im AWS Glue-Datenkatalog erstellen, kann es schwierig sein, herauszufinden, welche Ordner die Katalogtabellen verwenden. AWS Glue Data Quality kann die spezifischen Ordner oder Dateien finden, die zum Auffüllen Ihres Datenrahmens verwendet wurden, und erkennt, ob sie aktuell sind.

FileFreshness > (now() - 24 hours)

Diese Regel findet den Ordnerpfad oder die Dateien, die zum Auffüllen des dynamischen Frames oder Datenrahmens verwendet werden. Dies funktioniert für Amazon S3 S3-Pfade oder Amazon S3 S3-basierte AWS Glue Data Catalog-Tabellen. Es gibt ein paar Überlegungen:

  1. In AWS Glue ETL müssen Sie die EvaluateDataQualityTransformation unmittelbar nach einer Amazon S3- oder AWS Glue Data Catalog-Transformation haben.

    Der Screenshot zeigt einen Knoten „Evaluate Data Quality“, der mit einem Amazon S3 S3-Knoten verbunden ist.
  2. Diese Regel funktioniert nicht in AWS Glue Interactive Sessions.

Wenn Sie es in beiden Fällen versuchen oder wenn Glue die Dateien nicht finden kann, wird der folgende Fehler ausgegeben: “Unable to parse file path from DataFrame”