Penyimpangan atribusi fitur untuk model dalam produksi - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Penyimpangan atribusi fitur untuk model dalam produksi

Penyimpangan dalam distribusi data langsung untuk model dalam produksi dapat menghasilkan penyimpangan yang sesuai dalam nilai atribusi fitur, seperti halnya dapat menyebabkan penyimpangan bias saat memantau metrik bias. Pemantauan atribusi fitur Amazon SageMaker Clarify membantu ilmuwan data dan teknisi ML memantau prediksi penyimpangan atribusi fitur secara teratur. Saat model dipantau, pelanggan dapat melihat laporan dan grafik yang dapat diekspor yang merinci atribusi fitur di SageMaker Studio dan mengonfigurasi peringatan di Amazon CloudWatch untuk menerima pemberitahuan jika terdeteksi bahwa nilai atribusi melayang melampaui ambang batas tertentu.

Untuk mengilustrasikan hal ini dengan situasi tertentu, pertimbangkan skenario hipotetis untuk penerimaan perguruan tinggi. Asumsikan bahwa kami mengamati nilai atribusi fitur (agregat) berikut dalam data pelatihan dan dalam data langsung:

Skenario Hipotesis Penerimaan Perguruan Tinggi

Fitur Atribusi dalam data pelatihan Atribusi dalam data langsung
SATskor 0,70 0,10
GPA 0,50 0,20
Peringkat kelas 0,05 0,70

Perubahan dari data pelatihan ke data langsung tampak signifikan. Peringkat fitur telah sepenuhnya terbalik. Mirip dengan penyimpangan bias, penyimpangan atribusi fitur mungkin disebabkan oleh perubahan dalam distribusi data langsung dan memerlukan pandangan lebih dekat ke perilaku model pada data langsung. Sekali lagi, langkah pertama dalam skenario ini adalah menaikkan alarm bahwa penyimpangan telah terjadi.

Kami dapat mendeteksi penyimpangan dengan membandingkan bagaimana peringkat fitur individu berubah dari data pelatihan menjadi data langsung. Selain peka terhadap perubahan urutan peringkat, kami juga ingin peka terhadap skor atribusi mentah fitur. Misalnya, mengingat dua fitur yang termasuk dalam peringkat dengan jumlah posisi yang sama mulai dari pelatihan ke data langsung, kami ingin lebih sensitif terhadap fitur yang memiliki skor atribusi lebih tinggi dalam data pelatihan. Dengan mempertimbangkan properti ini, kami menggunakan skor Normalized Discounted Cumulative Gain (NDCG) untuk membandingkan peringkat atribusi fitur pelatihan dan data langsung.

Secara khusus, asumsikan kita memiliki yang berikut:

  • F= [f1,..., fm] adalah daftar fitur yang diurutkan sehubungan dengan skor atribusi mereka dalam data pelatihan di mana m adalah jumlah total fitur. Misalnya, dalam kasus kami, F = [SATSkorGPA, Peringkat Kelas].

  • a (f) adalah fungsi yang mengembalikan skor atribusi fitur pada data pelatihan yang diberikan fitur f. Misalnya, a (SATSkor) = 0,70.

  • F′= [f′1,..., f′m] adalah daftar fitur yang diurutkan sehubungan dengan skor atribusi mereka dalam data langsung. Misalnya, F ′= [Peringkat Kelas,GPA, SAT Skor].

Kemudian, kita dapat menghitung NDCG sebagai:

        NDCG= DCG /i DCG

dengan

  • DCG= Σ 1 m a (f' i) /log 2​ (i +1)

  • i DCG = Σ 1 m a (f i) /log 2​ (i +1)

Kuantitas DCG mengukur apakah fitur dengan atribusi tinggi dalam data pelatihan juga diberi peringkat lebih tinggi dalam atribusi fitur yang dihitung pada data langsung. Kuantitas i DCG mengukur skor ideal dan itu hanya faktor normalisasi untuk memastikan bahwa kuantitas akhir berada dalam kisaran [0, 1], dengan 1 menjadi nilai terbaik. NDCGNilai 1 berarti peringkat atribusi fitur dalam data langsung sama dengan yang ada di data pelatihan. Dalam contoh khusus ini, karena peringkat berubah sedikit, NDCG nilainya adalah 0,69.

Di SageMaker Clarify, jika NDCG nilainya di bawah 0,90, kami secara otomatis menaikkan peringatan.

Model Monitor Contoh Notebook

SageMaker Clarify memberikan contoh buku catatan berikut yang menunjukkan cara menangkap data inferensi untuk titik akhir waktu nyata, membuat garis dasar untuk memantau bias yang berkembang, dan memeriksa hasilnya:

Notebook ini telah diverifikasi untuk berjalan di SageMaker Studio saja. Jika Anda memerlukan petunjuk tentang cara membuka notebook di SageMaker Studio, lihatMembuat atau Membuka Notebook Amazon SageMaker Studio Classic. Jika Anda diminta untuk memilih kernel, pilih Python 3 (Ilmu Data). Topik berikut berisi sorotan dari dua langkah terakhir, dan berisi contoh kode dari contoh buku catatan.