Pemeriksaan kualitas data - AWS Panduan Preskriptif

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Pemeriksaan kualitas data

Kualitas data merupakan bagian integral namun sering diabaikan dari proses pembersihan data. Diagram berikut menunjukkan bagaimana pemeriksaan kualitas data sesuai dengan otomatisasi rekayasa data dan siklus hidup kontrol akses.

Diagram kualitas data

Tabel berikut memberikan ikhtisar solusi kualitas data yang berbeda berdasarkan kasus penggunaan.

Kasus penggunaan

Solusi

Contoh

Solusi tanpa kode untuk menambahkan kondisi kualitas tingkat kolom atau tingkat tabel

AWSGlue DataBrew

Memeriksa apakah semua nilai kolom antara 1 dan 12, atau jika tabel atau kolom kosong

Kode khusus ditambahkan ke pekerjaan AWS Glue atau solusi tanpa kode (dalam pratinjau) untuk menambahkan kondisi kualitas tingkat kolom atau tingkat tabel

AWSKualitas Data Glue

Memeriksa first_name apakah kolom tidak nol, atau jika kolom hanya phone_number berisi angka atau operator “+” dan/atau fungsi statistik, seperti rata-rata atau jumlah

Pemeriksaan kustom

ETLpilihan, seperti AWSLambda, AWSGlue, atau Amazon EMR

Memeriksa apakah nilai kolom A selalu lebih besar dari nilai kolom B dan kolom C yang sesuai, atau jika nilai kolom selalu continent benar secara geografis dan berasal dari kolom city

Solusi canggih dengan laporan metrik, validasi kendala, dan saran kendala

Deequ

Memeriksa apakah CompletenessConstraint untuk Kelengkapan metrik kolom sama review_id dengan 1