AWS Glue Kualitas Data - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

AWS Glue Kualitas Data

AWS Glue Kualitas Data memungkinkan Anda untuk mengukur dan memantau kualitas data Anda sehingga Anda dapat membuat keputusan bisnis yang baik. Dibangun di atas DeeQu kerangka kerja sumber terbuka, Kualitas AWS Glue Data memberikan pengalaman tanpa server yang dikelola. AWS Glue Kualitas Data berfungsi dengan Data Quality Definition Language (DQDL), yang merupakan bahasa khusus domain yang Anda gunakan untuk menentukan aturan kualitas data. Untuk mempelajari selengkapnya tentang DQDL dan jenis aturan yang didukung, lihatReferensi Definisi Kualitas Data Bahasa (DQDL).

Untuk detail dan harga produk tambahan, lihat halaman layanan untuk Kualitas AWS Glue Data.

Manfaat dan fitur utama

Manfaat dan fitur utama Kualitas AWS Glue Data meliputi:

  • Tanpa server - Tidak ada instalasi, penambalan, atau pemeliharaan.

  • Memulai dengan cepat — Kualitas AWS Glue Data menganalisis data Anda dengan cepat dan membuat aturan kualitas data untuk Anda. Anda dapat memulai dengan dua klik: “Buat Aturan Kualitas Data → Rekomendasikan aturan”.

  • Deteksi masalah kualitas data — Gunakan pembelajaran mesin (ML) untuk mendeteksi anomali dan masalah kualitas hard-to-detect data.

  • Improvisasi aturan Anda — dengan 25+ aturan out-of-the-box DQ untuk memulai, Anda dapat membuat aturan yang sesuai dengan kebutuhan spesifik Anda.

  • Evaluasi kualitas dan buat keputusan bisnis yang percaya diri — Setelah Anda mengevaluasi aturan, Anda mendapatkan skor Kualitas Data yang memberikan gambaran umum tentang kesehatan data Anda. Gunakan skor Kualitas Data untuk membuat keputusan bisnis yang percaya diri.

  • Nol pada data buruk — Kualitas AWS Glue Data membantu Anda mengidentifikasi catatan yang tepat yang menyebabkan skor kualitas Anda turun. Mudah mengidentifikasi mereka, karantina dan memperbaikinya.

  • Bayar saat Anda pergi - Tidak ada lisensi tahunan yang Anda perlukan untuk menggunakan Kualitas AWS Glue Data.

  • Tidak ada penguncian - Kualitas AWS Glue Data dibangun di atas sumber terbuka DeeQu, memungkinkan Anda untuk menjaga aturan yang Anda buat dalam bahasa terbuka.

  • Pemeriksaan kualitas data — Anda dapat menerapkan pemeriksaan kualitas data Data Catalog dan AWS Glue ETL saluran pipa yang memungkinkan Anda mengelola kualitas data saat istirahat dan dalam perjalanan.

  • Deteksi kualitas data berbasis ML — Gunakan pembelajaran mesin (ML) untuk mendeteksi anomali dan hard-to-detect masalah kualitas data.

  • Bahasa terbuka untuk mengekspresikan aturan — memastikan bahwa aturan kualitas data ditulis secara konsisten dan sederhana. Pengguna bisnis dapat dengan mudah mengekspresikan aturan kualitas data dalam bahasa langsung yang dapat mereka pahami. Untuk insinyur, bahasa ini memberikan fleksibilitas untuk menghasilkan kode, menerapkan kontrol versi yang konsisten, dan mengotomatiskan penerapan.

Cara kerjanya

Ada dua titik masuk untuk Kualitas AWS Glue Data: AWS Glue Data Catalog dan AWS Glue ETL pekerjaan. Bagian ini memberikan gambaran umum tentang kasus penggunaan dan AWS Glue fitur yang didukung oleh setiap titik masuk.

Kualitas data untuk AWS Glue Data Catalog

AWS Glue Kualitas Data mengevaluasi objek yang disimpan dalam AWS Glue Data Catalog Ini menawarkan non-coders cara mudah untuk mengatur aturan kualitas data. Persona ini termasuk pengelola data dan analis bisnis.

Anda dapat memilih opsi ini untuk kasus penggunaan berikut:

  • Anda ingin melakukan tugas kualitas data pada kumpulan data yang telah Anda katalog di. AWS Glue Data Catalog

  • Anda bekerja pada tata kelola data dan perlu mengidentifikasi atau mengevaluasi masalah kualitas data di danau data Anda secara berkelanjutan.

Anda dapat mengelola kualitas data untuk Katalog Data menggunakan antarmuka berikut:

  • Konsol AWS Glue manajemen

  • AWS Glue APIs

Untuk memulai dengan Kualitas AWS Glue Data untuk AWS Glue Data Catalog melihatMemulai dengan AWS Glue Data Quality untuk Data Catalog.

Kualitas data untuk AWS Glue ETL pekerjaan

AWS Glue Kualitas Data untuk AWS Glue ETL pekerjaan memungkinkan Anda melakukan tugas kualitas data proaktif. Tugas proaktif membantu Anda mengidentifikasi dan menyaring data buruk sebelum Anda memuat kumpulan data ke danau data Anda.

Anda dapat memilih kualitas data untuk ETL pekerjaan untuk kasus penggunaan berikut:

  • Anda ingin memasukkan tugas kualitas data ke dalam ETL pekerjaan Anda

  • Anda ingin menulis kode yang mendefinisikan tugas kualitas data dalam skrip ETL

  • Anda ingin mengelola kualitas data yang mengalir di pipeline data visual Anda

Anda dapat mengelola kualitas data untuk ETL pekerjaan menggunakan antarmuka berikut:

  • AWS Glue Studio, AWS Glue Studio notebook, dan sesi AWS Glue interaktif

  • AWS Glue pustaka untuk scripting ETL

  • AWS Glue APIs

Untuk memulai kualitas data untuk ETL pekerjaan, lihat Tutorial: Memulai Kualitas Data di Panduan AWS Glue Studio Pengguna.

Membandingkan kualitas data untuk Katalog Data dengan kualitas data untuk ETL pekerjaan

Tabel ini memberikan ikhtisar fitur yang didukung oleh setiap titik masuk untuk Kualitas AWS Glue Data.

Fitur Kualitas data untuk Katalog Data Kualitas data untuk ETL pekerjaan
Sumber data Amazon S3, Amazon Redshift, sumber yang kompatibel dengan Katalog DataJDBC, dan format danau data transaksional seperti Apache Iceberg, Apache Hudi, dan Delta Lake. Perhatikan bahwa jika tabel AWS Lake Formation dikelola, Iceberg, Delta dan HUDI tabel tidak didukung. Amazon Athena tampilan yang dikatalogkan tidak AWS Glue Data Catalog didukung. Semua sumber data yang didukung oleh AWS Glue, termasuk konektor khusus dan konektor pihak ketiga.
Rekomendasi aturan Kualitas Data Didukung Tidak Support
DQDLAturan penulis dan jalankan Didukung Didukung
Penskalaan otomatis Tidak didukung Didukung
AWS Glue Dukungan Flex Tidak didukung Didukung
Penjadwalan Didukung saat mengevaluasi aturan Kualitas Data dan melalui Step Functions. Didukung saat menggunakan Step Functions dan alur kerja.
Mengidentifikasi catatan yang gagal memeriksa kualitas data Tidak didukung Didukung
Integrasi dengan Amazon Eventbridge Didukung Didukung
Integrasi dengan AWS Cloudwatch Didukung Didukung
Menulis hasil kualitas data ke Amazon S3 Didukung Didukung
Kualitas data tambahan Didukung melalui predikat pushdown Didukung melalui AWS Glue bookmark
AWS CloudFormation dukungan Didukung Didukung
Deteksi anomali berbasis ML Tidak didukung Didukung
Aturan dinamis Tidak didukung Didukung

Pertimbangan

Pertimbangkan hal-hal berikut sebelum Anda menggunakan Kualitas AWS Glue Data:

  • Aturan kualitas data tidak dapat mengevaluasi sumber data bertingkat atau tipe daftar. Lihat Ratakan struct bersarang.

Terminologi

Daftar berikut mendefinisikan istilah yang terkait dengan Kualitas AWS Glue Data.

Definisi Kualitas Data Bahasa (DQDL)

Bahasa khusus domain yang dapat Anda gunakan untuk menulis aturan Kualitas AWS Glue Data.

Untuk mempelajari lebih lanjutDQDL, lihat Referensi Definisi Kualitas Data Bahasa (DQDL) panduannya.

kualitas data

Menjelaskan seberapa baik dataset melayani tujuan spesifiknya. AWS Glue Kualitas Data mengevaluasi aturan terhadap kumpulan data untuk mengukur kualitas data. Setiap aturan memeriksa karakteristik tertentu seperti kesegaran atau integritas data. Untuk mengukur kualitas data, Anda dapat menggunakan skor kualitas data.

skor kualitas data

Persentase aturan kualitas data yang lulus (menghasilkan true) saat Anda mengevaluasi kumpulan aturan dengan Kualitas AWS Glue Data.

aturan

DQDLEkspresi yang memeriksa data Anda untuk karakteristik tertentu dan mengembalikan nilai Boolean. Untuk informasi selengkapnya, lihat Struktur aturan.

analyzer

DQDLEkspresi yang mengumpulkan statistik data. Analyzer mengumpulkan statistik data yang dapat digunakan oleh algoritma ML untuk mendeteksi anomali dan masalah kualitas hard-to-detect data dari waktu ke waktu.

aturan

AWS Glue Sumber daya yang terdiri dari seperangkat aturan kualitas data. Sebuah aturan harus dikaitkan dengan tabel di. AWS Glue Data Catalog Saat Anda menyimpan kumpulan aturan, AWS Glue tetapkan Amazon Resource Name (ARN) ke kumpulan aturan.

skor kualitas data

Persentase aturan kualitas data yang lulus (menghasilkan true) saat Anda mengevaluasi kumpulan aturan dengan Kualitas AWS Glue Data.

observasi

Wawasan yang belum dikonfirmasi dihasilkan AWS Glue dengan menganalisis statistik data yang dikumpulkan dari aturan dan penganalisis dari waktu ke waktu.

Batas

AWS Glue Batas layanan Kualitas Data:

  • Anda dapat memiliki 2.000 aturan dalam satu set aturan. Jika aturan Anda lebih besar, kami sarankan untuk membagi menjadi beberapa aturan.

  • Ukuran ruleset adalah 65KB. Jika aturan Anda lebih besar, kami sarankan untuk membagi menjadi beberapa aturan.

  • AWS Glue Kualitas Data mengumpulkan statistik saat Anda membuat aturan atau penganalisis. Tidak ada biaya yang terkait dengan penyimpanan statistik ini. Namun, ada batas 100.000 statistik per akun, dan statistik ini akan dipertahankan selama maksimal dua tahun.

Catatan rilis untuk Kualitas AWS Glue Data

Topik ini menjelaskan fitur yang diperkenalkan dalam Kualitas AWS Glue Data.

Ketersediaan umum: fitur baru

Fitur-fitur baru berikut tersedia dengan ketersediaan umum Kualitas AWS Glue Data:

  • Kemampuan untuk mengidentifikasi catatan mana yang gagal pemeriksaan kualitas data sekarang didukung di AWS Glue Studio

  • Jenis aturan kualitas data baru seperti memvalidasi integritas referensial data antara dua set data, membandingkan data antara dua kumpulan data, dan pemeriksaan tipe data

  • Peningkatan pengalaman pengguna di AWS Glue Data Catalog

  • Support untuk Apache Iceberg, Apache Hudi dan Delta Lake

  • Dukungan untuk Amazon Redshift

  • Pemberitahuan yang disederhanakan dengan Amazon EventBridge

  • AWS CloudFormation dukungan untuk membuat rulesets

  • Peningkatan kinerja: opsi caching di dalam ETL dan AWS Glue Studio untuk kinerja yang lebih cepat saat mengevaluasi kualitas data

27 November 2023 (Pratinjau)

Mar 12, 2024

Juni 26, 2024

  • DQDLperbaikan

    • DQDLsekarang mendukung klausa where sehingga Anda dapat memfilter data sebelum menerapkan aturan DQ

Agustus 7, 2024

  • Deteksi Anomali dan Aturan Dinamis sekarang tersedia secara umum