FileUniqueness - AWS Glue

FileUniqueness

ファイルの一意性によって、データプロデューサーから受け取ったデータに重複したファイルがないことを確認できます。

次のデータ統計を収集します。

  1. フォルダ内のファイルの合計数

  2. ファイルの一意性の比率

Dataset.*.FileUniquenessRatio: 1.00, Dataset.*.FileCount: 8.00

フォルダ内の重複ファイルを検索します:

FileUniqueness "s3://bucket/" > 0.5 FileUniqueness "s3://bucket/folder/" = 1

重複を検出するために、データフレームから直接フォルダ名を推測します:

必ずしもファイルパスを指定する必要はありません。例えば、AWS Glue Data Catalog でルールを作成する場合、カタログテーブルが使用しているフォルダを見つけるのが難しい場合があります。 AWSGlue Data Quality は、データフレームへの入力に使用される特定のフォルダまたはファイルを見つけることができます。

FileUniqueness > 0.5 FileUniqueness with threshold = 1

考慮事項がいくつかあります:

  1. AWS Glue ETL では、Amazon S3 または AWS Glue Data Catalog 変換の直後に [EvaluateDataQuality] 変換が必要です。

  2. このルールは AWS Glue インタラクティブセッションでは機能しません。