FileMatch - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

FileMatch

Die FileMatch Regel ermöglicht es Ihnen, Dateien mit anderen Dateien oder Prüfsummen zu vergleichen. Dies kann in einigen Szenarien nützlich sein:

  1. Überprüfen von Dateien, die von externen Quellen empfangen wurden: Mit FileMatch dieser Methode können Sie sicherstellen, dass Sie die richtigen Dateien von externen Quellen erhalten haben, indem Sie sie mit Prüfsummen vergleichen. Auf diese Weise können Sie die Integrität der Daten überprüfen, die Sie aufnehmen.

  2. Daten in zwei verschiedenen Ordnern vergleichen: FileMatch kann verwendet werden, um Dateien zwischen zwei Ordnern zu vergleichen.

Beachten Sie, dass im Gegensatz zu anderen Regeln FileMatch keine Datenstatistiken erfasst werden.

Datei mit einer Prüfsumme validieren:

FileMatch akzeptiert eine Datei und festgelegte Prüfsummen, um sicherzustellen, dass mindestens eine Prüfsumme mit der Datei übereinstimmt.

FileMatch "s3://bucket/file.json" in ["3ee0d8617ac041793154713e5ef8f319"] with hashAlgorithm = "MD5" FileMatch "s3://bucket/file.json" in ["3ee0d8617ac041793154713e5ef8f319"] with hashAlgorithm = "SHA-1" FileMatch "s3://bucket/file.json" in ["3ee0d8617ac041793154713e5ef8f319"] with hashAlgorithm = "SHA-256" FileMatch "s3://bucket/file.json" in ["3ee0d8617ac041793154713e5ef8f319"]

Die folgenden Standardalgorithmen werden unterstützt:

  • MD5

  • SHA-1

  • SHA-256

Wenn Sie keinen Algorithmus angeben, wird der Standard auf SHA -256 festgelegt.

Überprüfen Sie alle Dateien in einem Ordner mit einer Reihe von Prüfsummen:

FileMatch "s3://bucket/" in ["3ee0d8617ac041793154713e5ef8f319", "7e8617ac041793154713e5ef8f319"] with hashAlgorithm = "MD5" FileMatch "s3://bucket/internal-folder/" in ["3ee0d8617ac041793154713e5ef8f319", "7e8617ac041793154713e5ef8f319"]

Vergleichen Sie Dateien in verschiedenen Ordnern

FileMatch "s3://original_bucket/" "s3://archive_bucket/" FileMatch "s3://original_bucket/internal-folder/" "s3://original_bucket/other-folder/"

FileMatch überprüft den Inhalt der Dateien original_bucket und stellt sicher, dass sie mit dem Inhalt übereinstimmenarchive_bucket. Die Regel schlägt fehl, wenn sie nicht genau übereinstimmen. Es kann auch den Inhalt interner Ordner oder einzelner Dateien überprüfen.

FileMatch kann auch einzelne Dateien miteinander vergleichen.

FileMatch "s3://bucket/file_old.json" "s3://bucket/file_new.json"

Dateinamen direkt aus Datenrahmen ableiten

Sie müssen nicht immer einen Dateipfad angeben. Wenn Sie beispielsweise die Regel im AWS Glue-Datenkatalog (unterstützt von Amazon S3) erstellen, kann es schwierig sein, herauszufinden, welche Ordner die Katalogtabellen verwenden. AWS Glue Data Quality kann die spezifischen Ordner oder Dateien finden, die zum Füllen Ihres Datenrahmens verwendet werden.

FileMatch in ["3ee0d8617ac041793154713e5ef8f319"] with hashAlgorithm = "MD5" FileMatch in ["3ee0d8617ac041793154713e5ef8f319"] with hashAlgorithm = "SHA-1" FileMatch in ["3ee0d8617ac041793154713e5ef8f319"] with hashAlgorithm = "SHA-256" FileMatch in ["3ee0d8617ac041793154713e5ef8f319"]

Wenn sich die angegebene Prüfsumme von der berechneten unterscheidet, FileMatch werden Sie auf den Unterschied hingewiesen.

Der Screenshot zeigt eine Regel mit dem DQ-Status Regel fehlgeschlagen. FileMatch erklärt den Fehler.

Es gibt ein paar Überlegungen:

  1. In AWS Glue ETL müssen Sie die EvaluateDataQualityTransformation unmittelbar nach einer Amazon S3- oder AWS Glue Data Catalog-Transformation haben.

    Der Screenshot zeigt eine Regel mit dem DQ-Status „Regel fehlgeschlagen“. FileMatch erklärt den Fehler.
  2. Diese Regel funktioniert nicht in AWS Glue Interactive Sessions.