FileSize - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

FileSize

Mit dem FileSize Regeltyp können Sie sicherstellen, dass Dateien bestimmte Dateigrößenkriterien erfüllen. Dies ist in den folgenden Anwendungsfällen nützlich:

  1. Stellen Sie sicher, dass Hersteller keine leeren oder wesentlich kleineren Dateien zur Verarbeitung senden.

  2. Stellen Sie sicher, dass Ihre Ziel-Buckets keine kleineren Dateien enthalten, was zu Leistungseinbußen führen kann.

FileSize erfasst die folgenden Metriken:

  1. Konformität: Gibt den Prozentsatz der Dateien zurück, die den von Ihnen festgelegten Regelschwellenwert erfüllen

  2. Dateianzahl: Anzahl der verarbeiteten Dateien

  3. Minimale Dateigröße in Bytes

  4. Maximale Dateigröße in Bytes

Dataset.*.FileSize.Compliance: 1.00, Dataset.*.FileCount: 8.00, Dataset.*.MaximumFileSize: 327413121.00, Dataset.*.MinimumFileSize: 204558920.00

Die Erkennung von Anomalien wird für diese Metriken nicht unterstützt.

Überprüfen Sie die Größe der Dateien

Diese Regel gilt, wenn file.dat größer als 2 MB ist.

FileSize "s3://bucket/file.dat" > 2 MB

Zu den unterstützten Einheiten gehören B (Byte), MB (Megabytes), GB (Gigabytes) und TB (Terabyte).

Überprüfen Sie die Größe der Dateien in Ordnern

FileSize "s3://bucket/" > 5 B FileSize "s3://bucket/" < 2 GB

Diese Regel gilt als gültig, wenn 70% der Dateien auf s3://bucket zwischen 2 GB und 1 TB groß sind.

FileSize "s3://bucket/" between 2 GB and 1 TB with threshold > 0.7

Dateinamen direkt aus Datenrahmen ableiten

Sie müssen nicht immer einen Dateipfad angeben. Wenn Sie beispielsweise die Regel im Datenkatalog erstellen, kann es schwierig sein, herauszufinden, welche Ordner die Katalogtabellen verwenden. AWS Glue Data Quality kann die spezifischen Ordner oder Dateien finden, die zum Füllen Ihres Datenrahmens verwendet werden.

FileSize < 10 MB with threshold > 0.7

Es gibt ein paar Überlegungen:

  1. In AWS Glue ETL muss Evaluate DataQuality Transform unmittelbar nach der Amazon S3- oder Data Catalog-Transformation installiert sein.

  2. Diese Regel funktioniert nicht in AWS Glue Interactive Sessions.