FileSize - AWS Glue

FileSize

FileSize ルールタイプを使用すると、ファイルが特定のファイルサイズ基準を満たすようにすることができます。これは、次のユースケースに役立ちます:

  1. プロデューサーが空のファイルや実質的に小さいファイルを処理用に送信していないことを確認します。

  2. ターゲットのバケットに、パフォーマンスの問題につながる可能性のある小さなファイルがないことを確認します。

FileSize は、次のメトリクスを収集します:

  1. コンプライアンス: 制定したルールのしきい値を満たすファイルの割合を返します。

  2. ファイル数: 処理されたファイルの数

  3. バイト単位の最小ファイルサイズ

  4. バイト単位の最大データサイズ

Dataset.*.FileSize.Compliance: 1.00, Dataset.*.FileCount: 8.00, Dataset.*.MaximumFileSize: 327413121.00, Dataset.*.MinimumFileSize: 204558920.00

これらのメトリクスでは異常検出はサポートされていません。

ファイルのサイズを検証する

file.dat が 2 MB を超えると、このルールは適用されます。

FileSize "s3://bucket/file.dat" > 2 MB

サポートされている単位には、B (バイト)、MB (メガバイト)、GB (ギガバイト)、TB (テラバイト) があります。

フォルダ内のファイルのサイズを検証する

FileSize "s3://bucket/" > 5 B FileSize "s3://bucket/" < 2 GB

s3://bucket のファイルの 70% が 2 GB から 1 TB の間であれば、このルールは適用されます。

FileSize "s3://bucket/" between 2 GB and 1 TB with threshold > 0.7

データフレームから直接ファイル名を推測する

必ずしもファイルパスを指定する必要はありません。例えば、Data Catalog でルールを作成する場合、カタログテーブルが使用しているフォルダを見つけるのが難しい場合があります。 AWSGlue Data Quality は、データフレームへの入力に使用される特定のフォルダまたはファイルを見つけることができます。

FileSize < 10 MB with threshold > 0.7

考慮事項がいくつかあります:

  1. AWS Glue ETL では、Amazon S3 または Data Catalog 変換の直後に Evaluate DataQuality Transform を実行する必要があります。

  2. このルールは AWS Glue インタラクティブセッションでは機能しません。