DataFreshness - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

DataFreshness

Memeriksa kesegaran data dalam kolom dengan mengevaluasi perbedaan antara waktu saat ini dan nilai kolom tanggal. Anda dapat menentukan ekspresi berbasis waktu untuk jenis aturan ini untuk memastikan bahwa nilai kolom up to date.

Sintaksis

DataFreshness <COL_NAME> <EXPRESSION>
  • COL_NAME — Nama kolom yang ingin Anda evaluasi terhadap aturan kualitas data.

    Jenis kolom yang didukung: Tanggal

  • EKSPRESI — Ekspresi numerik dalam jam atau hari. Anda harus menentukan satuan waktu dalam ekspresi Anda.

Contoh: Kesegaran data

Contoh aturan berikut memeriksa kesegaran data.

DataFreshness "Order_Date" <= 24 hours DataFreshness "Order_Date" between 2 days and 5 days

Perilaku nol

DataFreshnessAturan akan gagal untuk baris dengan NULL nilai. Jika aturan gagal karena nilai nol, alasan kegagalan akan menampilkan yang berikut:

80.00 % of rows passed the threshold

di mana 20% dari baris yang gagal termasuk baris denganNULL.

Contoh aturan majemuk berikut menyediakan cara untuk secara eksplisit mengizinkan nilai: NULL

(DataFreshness "Order_Date" <= 24 hours) OR (ColumnValues "Order_Date" = NULL)

Kesegaran Data untuk objek Amazon S3

Terkadang Anda perlu memvalidasi kesegaran data berdasarkan waktu pembuatan file Amazon S3. Untuk melakukan ini, Anda dapat menggunakan kode berikut untuk mendapatkan stempel waktu dan menambahkannya ke kerangka data Anda, dan kemudian menerapkan pemeriksaan Kesegaran Data.

df = glueContext.create_data_frame.from_catalog(database = "default", table_name = "mytable") df = df.withColumn("file_ts", df["_metadata.file_modification_time"]) Rules = [ DataFreshness "file_ts" < 24 hours ]