FileUniqueness - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

FileUniqueness

Keunikan File memungkinkan Anda untuk memastikan bahwa tidak ada file duplikat dalam data yang Anda terima dari produsen data Anda.

Ini mengumpulkan statistik data berikut

  1. Jumlah total file dalam folder

  2. Rasio Keunikan file

Dataset.*.FileUniquenessRatio: 1.00, Dataset.*.FileCount: 8.00

Temukan file duplikat dalam folder:

FileUniqueness "s3://bucket/" > 0.5 FileUniqueness "s3://bucket/folder/" = 1

Menyimpulkan nama folder langsung dari bingkai data untuk mendeteksi duplikat:

Anda tidak selalu harus menyediakan jalur file. Misalnya, ketika Anda menulis aturan di Katalog Data AWS Glue, mungkin sulit untuk menemukan folder mana yang digunakan tabel katalog. AWS Glue Data Quality dapat menemukan folder atau file tertentu yang digunakan untuk mengisi bingkai data Anda.

FileUniqueness > 0.5 FileUniqueness with threshold = 1

Ada beberapa pertimbangan:

  1. Di AWS GlueETL, Anda harus memiliki EvaluateDataQualityTransform segera setelah transformasi Amazon S3 atau AWS Glue Data Catalog.

  2. Aturan ini tidak akan berfungsi di AWS Glue Interactive Sessions.