Perbedaan Proporsi Label (DPL) - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Perbedaan Proporsi Label (DPL)

Perbedaan proporsi label (DPL) membandingkan proporsi hasil yang diamati dengan label positif untuk segi d dengan proporsi hasil yang diamati dengan label positif dari segi a dalam kumpulan data pelatihan. Misalnya, Anda dapat menggunakannya untuk membandingkan proporsi individu paruh baya (aspek a) dan kelompok usia lainnya (aspek d) yang disetujui untuk pinjaman keuangan. Model pembelajaran mesin mencoba meniru keputusan data pelatihan sedekat mungkin. Jadi model pembelajaran mesin yang dilatih pada dataset dengan tinggi DPL cenderung mencerminkan ketidakseimbangan yang sama dalam prediksi masa depannya.

Rumus untuk perbedaan proporsi label adalah sebagai berikut:

        DPL= (q a - qd)

Di mana:

  • q a = n a (1) /n a adalah proporsi faset a yang memiliki nilai label yang diamati 1. Misalnya, proporsi demografis paruh baya yang disetujui untuk pinjaman. Di sini n a (1) mewakili jumlah anggota faset a yang mendapatkan hasil positif dan n a adalah jumlah anggota faset a.

  • q d = n d (1) /n d adalah proporsi faset d yang memiliki nilai label yang diamati 1. Misalnya, proporsi orang di luar demografi paruh baya yang disetujui untuk pinjaman. Di sini n d (1) mewakili jumlah anggota faset d yang mendapatkan hasil positif dan n d adalah jumlah anggota faset d.

Jika DPL cukup dekat dengan 0, maka kita katakan bahwa paritas demografis telah tercapai.

Untuk label faset biner dan multikategori, DPL nilainya berkisar pada interval (-1, 1). Untuk label kontinu, kami menetapkan ambang batas untuk menciutkan label ke biner.

  • DPLNilai positif menunjukkan bahwa faset a memiliki proporsi hasil positif yang lebih tinggi jika dibandingkan dengan segi d.

  • Nilai DPL mendekati nol menunjukkan proporsi hasil positif yang lebih sama antara aspek dan nilai nol menunjukkan paritas demografis yang sempurna.

  • DPLNilai negatif menunjukkan bahwa faset d memiliki proporsi hasil positif yang lebih tinggi jika dibandingkan dengan faset a.

Apakah besaran tinggi bermasalah atau tidak bervariasi dari satu situasi ke situasi lainnya. DPL Dalam kasus yang bermasalah, magnitudo tinggi DPL mungkin merupakan sinyal masalah mendasar dalam data. Misalnya, kumpulan data dengan tinggi DPL mungkin mencerminkan bias atau prasangka historis terhadap kelompok demografis berbasis usia yang tidak diinginkan untuk dipelajari oleh model.