FileFreshness - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

FileFreshness

catatan

Untuk semua aturan berbasis File, Anda harus menjalankan pekerjaan di wilayah yang sama dengan bucket Anda. Jika Anda mencoba mengurai folder Amazon S3, folder itu harus ada di Amazon S3.

FileFreshness memastikan file data Anda segar berdasarkan kondisi yang Anda berikan. Ini menggunakan waktu modifikasi terakhir file Anda untuk memastikan bahwa file data atau seluruh folder. up-to-date

Aturan ini mengumpulkan dua metrik:

  • FileFreshness kepatuhan berdasarkan aturan yang Anda atur

  • Jumlah file yang dimodifikasi untuk hari itu

{"Dataset.*.FileFreshness.Compliance":1,"Dataset.*.FileCount":1}

Deteksi anomali tidak mempertimbangkan metrik ini.

Memeriksa kesegaran file

Aturan berikut memastikan bahwa tiket.parket dibuat dalam 24 jam terakhir.

FileFreshness "s3://bucket/artifacts/file/tickets/tickets.parquet" > (now() - 24 hours)

Memeriksa kesegaran folder

Aturan berikut berlalu jika semua file dalam folder dibuat atau dimodifikasi dalam 24 jam terakhir.

FileFreshness "s3://bucket/" >= (now() -1 days) FileFreshness "s3://bucket/artifacts/file/tickets/" >= (now() - 24 hours)

Memeriksa kesegaran folder atau file dengan ambang batas

Aturan berikut berlalu jika 10% dari file dalam folder “tiket “dibuat atau dimodifikasi dalam 10 hari terakhir.

FileFreshness "s3://bucket/artifacts/file/tickets/" < (now() - 10 days) with threshold > 0.1

Memeriksa file atau folder dengan tanggal tertentu

Anda dapat memeriksa kesegaran file untuk hari-hari tertentu.

FileFreshness "s3://bucket/artifacts/file/tickets/" > "2020-01-01" FileFreshness "s3://bucket/artifacts/file/tickets/" between "2023-01-01" and "2024-01-01"

Menyimpulkan nama file langsung dari bingkai data

Anda tidak selalu harus menyediakan jalur file. Misalnya, ketika Anda menulis aturan di Katalog Data AWS Glue, mungkin sulit untuk menemukan folder mana yang digunakan tabel katalog. AWS Glue Data Quality dapat menemukan folder atau file tertentu yang digunakan untuk mengisi kerangka data Anda dan dapat mendeteksi apakah masih segar.

FileFreshness > (now() - 24 hours)

Aturan ini akan menemukan jalur folder atau file yang digunakan untuk mengisi frame dinamis atau bingkai data. Ini berfungsi untuk jalur Amazon S3 atau tabel Katalog Data Glue AWS berbasis Amazon S3. Ada beberapa pertimbangan:

  1. Di AWS GlueETL, Anda harus memiliki EvaluateDataQualityTransform segera setelah transformasi Amazon S3 atau AWS Glue Data Catalog.

    Tangkapan layar menunjukkan node Evaluasi Kualitas Data yang terhubung ke node Amazon S3.
  2. Aturan ini tidak akan berfungsi di AWS Glue Interactive Sessions.

Jika Anda mencoba dalam kedua kasus, atau ketika Glue tidak dapat menemukan file, Ini akan memunculkan kesalahan berikut: “Unable to parse file path from DataFrame”