FileSize - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

FileSize

FileSize 規則類型可讓您確保檔案符合特定檔案大小條件。這對於下列使用案例很有用:

  1. 確保生產者不會傳送空白或大幅較小的檔案進行處理。

  2. 確保您的目標儲存貯體沒有較小的檔案,這可能會導致效能問題。

FileSize 收集下列指標:

  1. 合規:傳回符合您已建立之規則閾值的檔案百分比

  2. 檔案計數:處理的檔案數目

  3. 以位元組為單位的最小檔案大小

  4. 以位元組為單位的檔案大小上限

Dataset.*.FileSize.Compliance: 1.00, Dataset.*.FileCount: 8.00, Dataset.*.MaximumFileSize: 327413121.00, Dataset.*.MinimumFileSize: 204558920.00

這些指標不支援異常偵測。

驗證檔案大小

當 file.dat 大於 2 MB 時,此規則將通過。

FileSize "s3://bucket/file.dat" > 2 MB

支援的單位包括 B(位元組)、MB(百萬位元組)、GB(十億位元組) 和 TB(兆位元組)。

驗證資料夾中檔案的大小

FileSize "s3://bucket/" > 5 B FileSize "s3://bucket/" < 2 GB

如果 s3://bucket 中 70% 的檔案介於 2 GB 和 1 TB 之間,則此規則將通過。

FileSize "s3://bucket/" between 2 GB and 1 TB with threshold > 0.7

直接從資料影格推斷檔案名稱

您不一定必須提供檔案路徑。例如,當您在 Data Catalog 中編寫規則時,可能很難找到目錄資料表正在使用的資料夾。 AWS Glue Data Quality 可以找到用來填入資料框架的特定資料夾或檔案。

FileSize < 10 MB with threshold > 0.7

有幾個考量事項:

  1. 在 AWS Glue ETL 中,您必須在 Amazon S3 或 Data Catalog 轉換後立即進行 Evaluate DataQuality 轉換。

  2. 此規則無法在 Glue Interactive Sessions AWS 中運作。