Kualitas data - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Kualitas data

Pemantauan kualitas data secara otomatis memantau model pembelajaran mesin (ML) dalam produksi dan memberi tahu Anda saat masalah kualitas data muncul. Model ML dalam produksi harus membuat prediksi pada data kehidupan nyata yang tidak dikuratori dengan hati-hati seperti kebanyakan kumpulan data pelatihan. Jika sifat statistik dari data yang diterima model Anda saat dalam produksi menjauh dari sifat data dasar yang dilatihnya, model mulai kehilangan akurasi dalam prediksinya. Amazon SageMaker Model Monitor menggunakan aturan untuk mendeteksi penyimpangan data dan memberi tahu Anda ketika itu terjadi. Untuk memantau kualitas data, ikuti langkah-langkah berikut:

  • Aktifkan pengambilan data. Ini menangkap input dan output inferensi dari titik akhir inferensi waktu nyata atau pekerjaan transformasi batch dan menyimpan data di Amazon S3. Untuk informasi selengkapnya, lihat Pengambilan data.

  • Buat baseline. Pada langkah ini, Anda menjalankan pekerjaan dasar yang menganalisis kumpulan data input yang Anda berikan. Baseline menghitung batasan skema dasar dan statistik untuk setiap fitur menggunakan Deequ, pustaka open source yang dibangun di atas Apache Spark, yang digunakan untuk mengukur kualitas data dalam kumpulan data besar. Untuk informasi selengkapnya, lihat Buat Baseline.

  • Menentukan dan menjadwalkan pekerjaan pemantauan kualitas data. Untuk informasi spesifik dan contoh kode pekerjaan pemantauan kualitas data, lihatJadwalkan pekerjaan pemantauan kualitas data. Untuk informasi umum tentang pemantauan pekerjaan, lihatJadwalkan pekerjaan pemantauan.

    • Secara opsional gunakan skrip preprocessing dan postprocessing untuk mengubah data yang keluar dari analisis kualitas data Anda. Untuk informasi selengkapnya, lihat Preprocessing dan Postprocessing.

  • Lihat metrik kualitas data. Untuk informasi selengkapnya, lihat Skema untuk Statistik (file statistik.json).

  • Integrasikan pemantauan kualitas data dengan Amazon CloudWatch. Untuk informasi selengkapnya, lihat CloudWatch Metrik.

  • Menafsirkan hasil pekerjaan pemantauan. Untuk informasi selengkapnya, lihat Menafsirkan hasil.

  • Gunakan SageMaker Studio untuk mengaktifkan pemantauan kualitas data dan memvisualisasikan hasil jika Anda menggunakan titik akhir real-time. Untuk informasi selengkapnya, lihat Visualisasikan hasil untuk titik akhir real-time di Amazon Studio SageMaker .

catatan

Model Monitor menghitung metrik model dan statistik hanya pada data tabular. Misalnya, model klasifikasi gambar yang mengambil gambar sebagai input dan mengeluarkan label berdasarkan gambar itu masih dapat dipantau. Model Monitor akan dapat menghitung metrik dan statistik untuk output, bukan input.