ReferentialIntegrity - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

ReferentialIntegrity

Memeriksa sejauh mana nilai dari satu set kolom dalam dataset primer adalah bagian dari nilai-nilai dari satu set kolom dalam dataset referensi.

Sintaksis

ReferentialIntegrity <PRIMARY_COLS> <REFERENCE_DATASET_COLS> <EXPRESSION>
  • PRIMARY_ COLS — Daftar nama kolom yang dipisahkan koma di kumpulan data utama.

    Jenis kolom yang didukung: Byte, Desimal, Ganda, Float, Integer, Panjang, Pendek

  • REFERENCE_ DATASET _ COLS - Parameter ini berisi dua bagian yang dipisahkan oleh titik. Bagian pertama adalah alias dari dataset referensi. Bagian kedua adalah daftar nama kolom yang dipisahkan koma dalam kumpulan data referensi yang terlampir dalam tanda kurung gigi.

    Jenis kolom yang didukung: Byte, Desimal, Ganda, Float, Integer, Panjang, Pendek

  • EXPRESSION— Ekspresi untuk dijalankan terhadap respons tipe aturan untuk menghasilkan nilai Boolean. Untuk informasi selengkapnya, lihat Ekspresi.

Contoh: Periksa integritas referensial kolom kode pos

Contoh aturan berikut memeriksa bahwa lebih dari 90% dari nilai-nilai dalam zipcode kolom dalam dataset utama, hadir di zipcode kolom dalam reference dataset.

ReferentialIntegrity "zipcode" "reference.zipcode" >= 0.9

Contoh: Periksa integritas referensial kolom kota dan negara bagian

Dalam contoh berikut, kolom yang berisi informasi kota dan negara bagian ada di kumpulan data utama dan kumpulan data referensi. Nama-nama kolom berbeda di kedua kumpulan data. Aturan memeriksa apakah himpunan nilai kolom dalam dataset primer persis sama dengan himpunan nilai kolom dalam dataset referensi.

ReferentialIntegrity "city,state" "reference.{ref_city,ref_state}" = 1.0

Contoh aturan dinamis

  • ReferentialIntegrity "city,state" "reference.{ref_city,ref_state}" > avg(last(10))

  • ReferentialIntegrity "city,state" "reference.{ref_city,ref_state}" between min(last(10)) - 1 and max(last(10)) + 1