Disparitas Demografis Bersyarat dalam Label yang Diprediksi () CDDPL - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Disparitas Demografis Bersyarat dalam Label yang Diprediksi () CDDPL

Metrik disparitas demografis (DDPL) menentukan apakah faset d memiliki proporsi yang lebih besar dari label yang ditolak yang diprediksi daripada label yang diterima yang diprediksi. Ini memungkinkan perbandingan perbedaan dalam proporsi penolakan yang diprediksi dan proporsi penerimaan yang diprediksi di seluruh aspek. Metrik ini persis sama dengan CDD metrik pra-pelatihan kecuali bahwa itu dihitung dari label yang diprediksi alih-alih yang diamati. Metrik ini terletak pada kisaran (-1, +1).

Rumus prediksi disparitas demografis untuk label segi d adalah sebagai berikut:

        DDPLd= n' d (0) /n '(0) - n' d (1) /n' (1) = P d R (y' 0) - P d A (y' 1)

Di mana:

  • n' (0) = n' a (0) + n' d (0) adalah jumlah label yang ditolak yang diprediksi untuk segi a dan d.

  • n' (1) = n' a (1) + n' d (1) adalah jumlah label yang diterima yang diprediksi untuk segi a dan d.

  • P d R (y' 0) adalah proporsi label ditolak yang diprediksi (nilai 0) dalam segi d.

  • P d A (y' 1) adalah proporsi label yang diterima yang diprediksi (nilai 1) dalam segi d.

Perbedaan demografis bersyarat dalam metrik label prediksi (CDDPL) yang mengkondisikan DDPL pada atribut yang menentukan strata subkelompok pada kumpulan data diperlukan untuk mengesampingkan paradoks Simpson. Pengelompokan kembali dapat memberikan wawasan tentang penyebab kesenjangan demografis yang jelas untuk aspek yang kurang disukai. Kasus klasik muncul dalam kasus penerimaan Berkeley di mana pria diterima pada tingkat yang lebih tinggi secara keseluruhan daripada wanita. Tetapi ketika subkelompok departemen diperiksa, wanita terbukti memiliki tingkat penerimaan yang lebih tinggi daripada pria berdasarkan departemen. Penjelasannya adalah bahwa wanita telah mendaftar ke departemen dengan tingkat penerimaan yang lebih rendah daripada pria. Meneliti tingkat penerimaan subkelompok mengungkapkan bahwa wanita sebenarnya diterima pada tingkat yang lebih tinggi daripada pria untuk departemen dengan tingkat penerimaan yang lebih rendah.

CDDPLMetrik memberikan ukuran tunggal untuk semua perbedaan yang ditemukan dalam subkelompok yang ditentukan oleh atribut kumpulan data dengan meratakannya. Ini didefinisikan sebagai rata-rata tertimbang dari disparitas demografis dalam label yang diprediksi (DDPLi) untuk masing-masing subkelompok, dengan setiap disparitas subkelompok tertimbang secara proporsional dengan jumlah pengamatan dalam mengandung. Rumus untuk disparitas demografis bersyarat dalam label yang diprediksi adalah sebagai berikut:

        CDDPL= (1/n) * Σ i n i * DDPL i

Di mana:

  • in i = n adalah jumlah total pengamatan dan n i adalah jumlah pengamatan untuk setiap subkelompok.

  • DDPLi= n' i (0) /n (0) - n' i (1) /n (1) = P i R (y' 0) - P i A (y' 1) adalah perbedaan demografis dalam label yang diprediksi untuk subkelompok.

Jadi perbedaan demografis untuk subkelompok dalam label yang diprediksi (DDPLi) adalah perbedaan antara proporsi label yang ditolak yang diprediksi dan proporsi label yang diterima yang diprediksi untuk setiap subkelompok.

Rentang DDPL nilai untuk hasil biner, multikategori, dan kontinu adalah [-1, +1].

  • +1: ketika tidak ada label penolakan yang diprediksi untuk faset a atau subkelompok dan tidak ada penerimaan yang diprediksi untuk segi d atau subkelompok.

  • Nilai positif menunjukkan ada perbedaan demografis dalam label yang diprediksi karena aspek d atau subkelompok memiliki proporsi yang lebih besar dari label yang ditolak yang diprediksi daripada label yang diterima yang diprediksi. Semakin tinggi nilainya semakin besar disparitas.

  • Nilai mendekati nol menunjukkan tidak ada perbedaan demografis rata-rata.

  • Nilai negatif menunjukkan ada perbedaan demografis dalam label yang diprediksi karena aspek a atau subkelompok memiliki proporsi yang lebih besar dari label yang ditolak yang diprediksi daripada label yang diterima yang diprediksi. Semakin rendah nilainya semakin besar disparitas.

  • -1: ketika tidak ada kerah penolakan yang diprediksi untuk segi d atau subkelompok dan tidak ada penerimaan yang diprediksi untuk faset a atau subkelompok.