Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Di bagian ini, kita akan menjelajahi dasbor kualitas data dan berbagai fungsi yang disediakannya.
Visualisasikan dan pahami metrik dan tren kualitas data tingkat tinggi
Setelah pekerjaan Anda berhasil, pilih tab Kualitas Data untuk melihat skor kualitas data dan anomali.
Komponen berikut di tab Kualitas data memberikan informasi yang berguna.
-
Pilih tab Kualitas Data untuk melihat metrik kualitas data.
-
Pilih ID job run tertentu untuk melihat skor Kualitas Data.
-
Panel ini menampilkan tiga informasi penting. Anda dapat memilih masing-masing untuk menavigasi ke tabel tertentu untuk melihat anomali, statistik data, atau aturan.
-
Skor Kualitas Data saat aturan dikonfigurasi.
-
Jumlah statistik yang dikumpulkan oleh Aturan dan Analyzer.
-
Jumlah anomali yang terdeteksi.
-
-
Grafik tren ini menunjukkan bagaimana kualitas data menjadi tren dari waktu ke waktu. Anda dapat mengarahkan kursor ke tren dan pergi ke waktu tertentu ketika skor kualitas data memburuk.
-
Tren anomali dari waktu ke waktu akan menunjukkan kepada Anda jumlah anomali yang terdeteksi dari waktu ke waktu.
-
Tab:
-
Aturan Tab adalah tab default yang menampilkan daftar semua aturan dan status. Aturan yang Dievaluasi berguna dalam kasus aturan dinamis untuk melihat nilai aktual aturan yang dievaluasi.
-
Statistik Tab mencantumkan semua statistik, memungkinkan Anda untuk melihat metrik dan tren dari waktu ke waktu.
-
Tab anomali menunjukkan daftar anomali yang terdeteksi.
-
Melihat anomali dan melatih algoritma deteksi anomali
Panggilan untuk gambar di atas:
-
Ketika anomali terdeteksi, klik anomali atau pilih tab Anomali
-
AWS Glue Data Quality memberikan penjelasan rinci tentang anomali, nilai aktual, rentang prediksi
-
AWS Glue Data Quality menunjukkan garis tren. Ini memiliki nilai aktual, tren turunan berdasarkan nilai aktual (garis merah), batas atas dan batas bawah
-
AWS Glue Data Quality merekomendasikan aturan kualitas data yang dapat digunakan untuk menangkap pola untuk masa depan. Anda dapat menyalin semua aturan yang direkomendasikan kepada Anda dan menerapkannya ke node kualitas data Anda untuk menangkap pola-pola ini secara efektif.
-
Anda dapat memberikan input ke model machine learning (ML) untuk mengecualikan nilai anomali, memastikan bahwa future run mendeteksi anomali secara akurat. Jika Anda tidak secara eksplisit mengecualikan anomali, AWS Glue Data Quality akan secara otomatis menganggapnya sebagai bagian dari model untuk prediksi masa depan. Penting untuk dicatat bahwa hanya proses terbaru yang akan mencerminkan input model yang Anda berikan. Misalnya, jika Anda kembali dan mengecualikan titik anomali dari beberapa proses sebelumnya, model tidak akan mencerminkan perubahan tersebut kecuali Anda melihat dan memperbarui input model dalam proses terbaru. Model akan terus menggunakan input yang disediakan sebelumnya sampai Anda membuat penyesuaian yang diperlukan dalam proses terbaru. Dengan secara aktif mengelola pengecualian nilai anomali, Anda dapat menyempurnakan pemahaman model ML tentang apa yang merupakan anomali untuk pola dan persyaratan data spesifik Anda, yang mengarah ke deteksi anomali yang lebih akurat dari waktu ke waktu.
Melihat Statistik Data dari waktu ke waktu dan memberikan masukan pelatihan
Terkadang, Anda mungkin ingin melihat statistik data atau profil data dan melihat perkembangannya dari waktu ke waktu. Untuk melakukan ini, pilih Statistik atau buka tab Statistik. Anda kemudian dapat melihat statistik data terbaru yang dikumpulkan oleh AWS Glue Data Quality.
Mengklik Tren Tampilan menunjukkan kepada Anda bagaimana masing-masing statistik berkembang dari waktu ke waktu.
-
Anda dapat memilih statistik untuk kolom tertentu
-
Anda dapat melihat bagaimana tren berkembang
-
Anda dapat memilih nilai anomali dan memilih untuk mengecualikan atau memasukkannya. Dengan memberikan umpan balik ini, algoritme akan mengecualikan atau menyertakan titik data anomali yang diidentifikasi dan melatih kembali model. Proses pelatihan ulang ini memastikan deteksi anomali yang akurat bergerak maju, karena model belajar dari umpan balik yang Anda berikan tentang nilai mana yang harus dianggap anomali atau tidak.
Melalui loop umpan balik ini, Anda memiliki kemampuan untuk menyempurnakan pemahaman algoritme tentang apa yang merupakan anomali untuk pola data spesifik dan persyaratan bisnis Anda. Dengan mengecualikan nilai yang tidak boleh ditandai sebagai anomali, atau termasuk nilai yang terlewatkan, model yang dilatih ulang akan menjadi lebih baik dalam membedakan antara titik data yang diharapkan dan benar-benar anomali.