Bias drift untuk model dalam produksi

Pemantauan bias Amazon SageMaker Clarify membantu ilmuwan data dan insinyur ML memantau prediksi bias secara teratur. Saat model dipantau, pelanggan dapat melihat laporan dan grafik yang dapat diekspor yang merinci bias di SageMaker Studio dan mengonfigurasi peringatan di Amazon CloudWatch untuk menerima pemberitahuan jika bias di luar ambang batas tertentu terdeteksi. Bias dapat diperkenalkan atau diperburuk dalam model ML yang diterapkan ketika data pelatihan berbeda dari data yang dilihat model selama penerapan (yaitu, data langsung). Jenis perubahan dalam distribusi data langsung ini mungkin bersifat sementara (misalnya, karena beberapa peristiwa dunia nyata yang berumur pendek) atau permanen. Dalam kedua kasus, mungkin penting untuk mendeteksi perubahan ini. Misalnya, output model untuk memprediksi harga rumah dapat menjadi bias jika tingkat hipotek yang digunakan untuk melatih model berbeda dari tingkat hipotek dunia nyata saat ini. Dengan kemampuan deteksi bias di Model Monitor, ketika SageMaker mendeteksi bias di luar ambang batas tertentu, secara otomatis menghasilkan metrik yang dapat Anda lihat di SageMaker Studio dan melalui peringatan Amazon CloudWatch.

Secara umum, mengukur bias hanya selama train-and-deploy fase mungkin tidak cukup. Ada kemungkinan bahwa setelah model digunakan, distribusi data yang dilihat oleh model yang diterapkan (yaitu, data langsung) berbeda dari distribusi data dalam kumpulan data pelatihan. Perubahan ini mungkin menimbulkan bias dalam model dari waktu ke waktu. Perubahan dalam distribusi data langsung mungkin bersifat sementara (misalnya, karena beberapa perilaku berumur pendek seperti musim liburan) atau permanen. Dalam kedua kasus, mungkin penting untuk mendeteksi perubahan ini dan mengambil langkah-langkah untuk mengurangi bias bila perlu.

Untuk mendeteksi perubahan ini, SageMaker Clarify menyediakan fungsionalitas untuk memantau metrik bias model yang diterapkan secara terus menerus dan meningkatkan peringatan otomatis jika metrik melebihi ambang batas. Misalnya, perhatikan metrik DPPL bias. Tentukan rentang nilai yang diizinkan A= (a_min, a_max), misalnya interval (-0.1, 0.1), yang DPPL seharusnya menjadi milik selama penerapan. Setiap penyimpangan dari kisaran ini harus meningkatkan peringatan bias yang terdeteksi. Dengan SageMaker Clarify, Anda dapat melakukan pemeriksaan ini secara berkala.

Misalnya, Anda dapat mengatur frekuensi cek menjadi 2 hari. Ini berarti SageMaker Clarify menghitung DPPL metrik pada data yang dikumpulkan selama jendela 2 hari. Dalam contoh ini, D _win adalah data yang diproses model selama jendela 2 hari terakhir. Peringatan dikeluarkan jika DPPL nilai b yang _win dihitung pada D _win berada di luar rentang yang diizinkan A. Pendekatan untuk memeriksa apakah b _win berada di luar A bisa agak bising. D _win mungkin terdiri dari sangat sedikit sampel dan mungkin tidak mewakili distribusi data langsung. Ukuran sampel yang kecil berarti bahwa nilai bias b yang _win dihitung di atas D _win mungkin bukan perkiraan yang sangat kuat. Faktanya, nilai b yang sangat tinggi (atau rendah) _win dapat diamati murni karena kebetulan. Untuk memastikan bahwa kesimpulan yang diambil dari data D _win yang diamati signifikan secara statistik, SageMaker Clarify menggunakan interval kepercayaan. Secara khusus, ia menggunakan metode Interval Bootstrap Normal untuk membangun interval C= (c_min, c_max) sedemikian rupa sehingga SageMaker Clarify yakin bahwa nilai bias sebenarnya yang dihitung melalui data langsung lengkap terkandung dalam C dengan probabilitas tinggi. Sekarang, jika interval kepercayaan C tumpang tindih dengan rentang A yang diizinkan, SageMaker Clarify menafsirkannya sebagai “kemungkinan nilai metrik bias dari distribusi data langsung berada dalam kisaran yang diizinkan”. Jika C dan A terputus-putus, SageMaker Clarify yakin bahwa metrik bias tidak terletak pada A dan menimbulkan peringatan.

Model Monitor Contoh Notebook

Amazon SageMaker Clarify menyediakan contoh buku catatan berikut yang menunjukkan cara menangkap data inferensi untuk titik akhir real-time, membuat garis dasar untuk memantau bias yang berkembang, dan memeriksa hasilnya:

Memantau penyimpangan bias dan penyimpangan atribusi fitur Amazon SageMaker Clarify — Gunakan Monitor Model SageMaker Amazon untuk memantau penyimpangan bias dan fitur penyimpangan atribusi dari waktu ke waktu.

Notebook ini telah diverifikasi untuk berjalan di Amazon SageMaker Studio saja. Jika Anda memerlukan petunjuk tentang cara membuka notebook di Amazon SageMaker Studio, lihatMembuat atau Membuka Notebook Amazon SageMaker Studio Classic. Jika Anda diminta untuk memilih kernel, pilih Python 3 (Ilmu Data). Topik berikut berisi sorotan dari dua langkah terakhir, dan berisi contoh kode dari contoh buku catatan.

Topik

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Metrik kualitas model dan pemantauan Amazon CloudWatch

Buat Bias Drift Baseline