Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
DataFreshness
Memeriksa kesegaran data dalam kolom dengan mengevaluasi perbedaan antara waktu saat ini dan nilai kolom tanggal. Anda dapat menentukan ekspresi berbasis waktu untuk jenis aturan ini untuk memastikan bahwa nilai kolom up to date.
Sintaksis
DataFreshness
<COL_NAME>
<EXPRESSION>
COL_NAME — Nama kolom yang ingin Anda evaluasi terhadap aturan kualitas data.
Jenis kolom yang didukung: Tanggal
EKSPRESI — Ekspresi numerik dalam jam atau hari. Anda harus menentukan satuan waktu dalam ekspresi Anda.
Contoh: Kesegaran data
Contoh aturan berikut memeriksa kesegaran data.
DataFreshness "Order_Date" <= 24 hours DataFreshness "Order_Date" between 2 days and 5 days
Perilaku nol
DataFreshness
Aturan akan gagal untuk baris dengan NULL
nilai. Jika aturan gagal karena nilai nol, alasan kegagalan akan menampilkan yang berikut:
80.00 % of rows passed the threshold
di mana 20% dari baris yang gagal termasuk baris denganNULL
.
Contoh aturan majemuk berikut menyediakan cara untuk secara eksplisit mengizinkan nilai: NULL
(DataFreshness "Order_Date" <= 24 hours) OR (ColumnValues "Order_Date" = NULL)
Kesegaran Data untuk objek Amazon S3
Terkadang Anda perlu memvalidasi kesegaran data berdasarkan waktu pembuatan file Amazon S3. Untuk melakukan ini, Anda dapat menggunakan kode berikut untuk mendapatkan stempel waktu dan menambahkannya ke kerangka data Anda, dan kemudian menerapkan pemeriksaan Kesegaran Data.
df = glueContext.create_data_frame.from_catalog(database = "default", table_name = "mytable") df = df.withColumn("file_ts", df["_metadata.file_modification_time"]) Rules = [ DataFreshness "file_ts" < 24 hours ]