Penyimpangan atribusi fitur untuk model dalam produksi - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Penyimpangan atribusi fitur untuk model dalam produksi

Penyimpangan dalam distribusi data langsung untuk model dalam produksi dapat menghasilkan penyimpangan yang sesuai dalam nilai atribusi fitur, seperti halnya dapat menyebabkan penyimpangan bias saat memantau metrik bias. Pemantauan atribusi fitur Amazon SageMaker Clarify membantu ilmuwan data dan teknisi ML memantau prediksi penyimpangan atribusi fitur secara teratur. Saat model dipantau, pelanggan dapat melihat laporan dan grafik yang dapat diekspor yang merinci atribusi fitur di SageMaker Studio dan mengonfigurasi peringatan di Amazon CloudWatch untuk menerima pemberitahuan jika terdeteksi bahwa nilai atribusi melayang melampaui ambang batas tertentu.

Untuk mengilustrasikan hal ini dengan situasi tertentu, pertimbangkan skenario hipotetis untuk penerimaan perguruan tinggi. Asumsikan bahwa kami mengamati nilai atribusi fitur (agregat) berikut dalam data pelatihan dan dalam data langsung:

Skenario Hipotesis Penerimaan Perguruan Tinggi

Fitur Atribusi dalam data pelatihan Atribusi dalam data langsung
Skor SAT 0,70 0,10
IPK 0,50 0,20
Peringkat kelas 0,05 0,70

Perubahan dari data pelatihan ke data langsung tampak signifikan. Peringkat fitur telah sepenuhnya terbalik. Mirip dengan penyimpangan bias, penyimpangan atribusi fitur mungkin disebabkan oleh perubahan dalam distribusi data langsung dan memerlukan pandangan lebih dekat ke perilaku model pada data langsung. Sekali lagi, langkah pertama dalam skenario ini adalah menaikkan alarm bahwa penyimpangan telah terjadi.

Kami dapat mendeteksi penyimpangan dengan membandingkan bagaimana peringkat fitur individu berubah dari data pelatihan menjadi data langsung. Selain peka terhadap perubahan urutan peringkat, kami juga ingin peka terhadap skor atribusi mentah fitur. Misalnya, mengingat dua fitur yang termasuk dalam peringkat dengan jumlah posisi yang sama mulai dari pelatihan ke data langsung, kami ingin lebih sensitif terhadap fitur yang memiliki skor atribusi lebih tinggi dalam data pelatihan. Dengan mempertimbangkan properti ini, kami menggunakan skor Normalized Discounted Cumulative Gain (NDCG) untuk membandingkan peringkat atribusi fitur pelatihan dan data langsung.

Secara khusus, asumsikan kita memiliki yang berikut:

  • F= [f1,..., fm] adalah daftar fitur yang diurutkan sehubungan dengan skor atribusi mereka dalam data pelatihan di mana m adalah jumlah total fitur. Misalnya, dalam kasus kami, F = [Skor SAT, IPK, Peringkat Kelas].

  • a (f) adalah fungsi yang mengembalikan skor atribusi fitur pada data pelatihan yang diberikan fitur f. Misalnya, a (Skor SAT) = 0,70.

  • F′= [f′1,..., f′m] adalah daftar fitur yang diurutkan sehubungan dengan skor atribusi mereka dalam data langsung. Misalnya, F ′= [Peringkat Kelas, IPK, Skor SAT].

Kemudian, kita dapat menghitung NDCG sebagai:

        ndcg=dcg/idcg

dengan

  • DCG = Σ 1 m a (f' i) /log (i +12​)

  • idCG = Σ 1 m a (f i) /log 2​ (i +1)

DCG kuantitas mengukur apakah fitur dengan atribusi tinggi dalam data pelatihan juga diberi peringkat lebih tinggi dalam atribusi fitur yang dihitung pada data langsung. Kuantitas idCG mengukur skor ideal dan itu hanya faktor normalisasi untuk memastikan bahwa kuantitas akhir berada dalam kisaran [0, 1], dengan 1 menjadi nilai terbaik. Nilai NDCG 1 berarti bahwa peringkat atribusi fitur dalam data langsung sama dengan yang ada di data pelatihan. Dalam contoh khusus ini, karena peringkat berubah sedikit, nilai NDCG adalah 0,69.

Di SageMaker Clarify, jika nilai NDCG di bawah 0,90, kami secara otomatis menaikkan peringatan.

Model Monitor Contoh Notebook

SageMaker Clarify memberikan contoh buku catatan berikut yang menunjukkan cara menangkap data inferensi untuk titik akhir waktu nyata, membuat garis dasar untuk memantau bias yang berkembang, dan memeriksa hasilnya:

Notebook ini telah diverifikasi untuk berjalan di SageMaker Studio saja. Jika Anda memerlukan petunjuk tentang cara membuka notebook di SageMaker Studio, lihatMembuat atau Membuka Notebook Amazon SageMaker Studio Classic. Jika Anda diminta untuk memilih kernel, pilih Python 3 (Ilmu Data). Topik berikut berisi sorotan dari dua langkah terakhir, dan berisi contoh kode dari contoh buku catatan.