Ingat Perbedaan (RD) - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Ingat Perbedaan (RD)

Metrik recall difference (RD) adalah perbedaan dalam mengingat model antara faset yang disukai a dan aspek yang tidak disukai d. Setiap perbedaan dalam penarikan ini adalah bentuk bias potensial. Ingat adalah tingkat positif sejati (TPR), yang mengukur seberapa sering model memprediksi dengan benar kasus-kasus yang seharusnya menerima hasil positif. Ingat sempurna untuk suatu segi jika semua kasus y=1 diprediksi dengan benar sebagai y'=1 untuk segi itu. Ingat lebih besar ketika model meminimalkan negatif palsu yang dikenal sebagai kesalahan Tipe II. Misalnya, berapa banyak orang dalam dua kelompok berbeda (aspek a dan d) yang harus memenuhi syarat untuk pinjaman terdeteksi dengan benar oleh model? Jika tingkat penarikan tinggi untuk pinjaman ke segi a, tetapi rendah untuk pinjaman ke segi d, perbedaannya memberikan ukuran bias ini terhadap kelompok yang termasuk dalam segi d.

Rumus untuk perbedaan tingkat penarikan untuk aspek a dan d:

        RD = TPa/(TP a + FNa) - TPd/(TP d + FN) = - d TPR a TPR d

Di mana:

  • TP a adalah positif sejati yang diprediksi untuk aspek a.

  • FN a adalah negatif palsu yang diprediksi untuk segi a.

  • TP d adalah positif sejati yang diprediksi untuk segi d.

  • FN d adalah negatif palsu yang diprediksi untuk segi d.

  • TPRa= TPa/(TP a + FNa) adalah penarikan untuk faset a, atau tingkat positif sebenarnya.

  • TPRdTPd/(TP d + FNd) adalah penarikan untuk segi d, atau tingkat positif sebenarnya.

Misalnya, perhatikan matriks kebingungan berikut untuk segi a dan d.

Matriks Kebingungan untuk Aspek Favorit a

Prediksi kelas a Hasil aktual 0 Hasil aktual 1 Total
0 20 5 25
1 10 65 75
Total 30 70 100

Matriks Kebingungan untuk Aspet yang Tidak Disukai d

Prediksi kelas d Hasil aktual 0 Hasil aktual 1 Total
0 18 7 25
1 5 20 25
Total 23 27 50

Nilai perbedaan recall adalah RD = 65/70 - 20/27 = 0,93 - 0,74 = 0,19 yang menunjukkan bias terhadap segi d.

Rentang nilai untuk perbedaan ingatan antara segi a dan d untuk klasifikasi biner dan multikategori adalah [-1, +1]. Metrik ini tidak tersedia untuk kasus label kontinu.

  • Nilai positif diperoleh ketika ada ingatan yang lebih tinggi untuk faset a daripada untuk segi d. Hal ini menunjukkan bahwa model menemukan lebih banyak hal positif sejati untuk faset a daripada segi d, yang merupakan bentuk bias.

  • Nilai mendekati nol menunjukkan bahwa penarikan kembali untuk aspek yang dibandingkan serupa. Ini menunjukkan bahwa model menemukan jumlah positif sejati yang sama di kedua aspek ini dan tidak bias.

  • Nilai negatif diperoleh ketika ada ingatan yang lebih tinggi untuk faset d daripada faset a. Ini menunjukkan bahwa model menemukan lebih banyak hal positif sejati untuk segi d daripada faset a, yang merupakan bentuk bias.