Disparitas Demografis Bersyarat () CDD - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Disparitas Demografis Bersyarat () CDD

Metrik disparitas demografis (DD) menentukan apakah suatu aspek memiliki proporsi yang lebih besar dari hasil yang ditolak dalam kumpulan data daripada hasil yang diterima. Dalam kasus biner di mana ada dua aspek, pria dan wanita misalnya, yang merupakan kumpulan data, yang tidak disukai diberi label segi d dan yang disukai diberi label faset a. Misalnya, dalam kasus penerimaan perguruan tinggi, jika pelamar perempuan terdiri dari 46% dari pelamar yang ditolak dan hanya terdiri dari 32% dari pelamar yang diterima, kami mengatakan bahwa ada perbedaan demografis karena tingkat di mana perempuan ditolak melebihi tingkat di mana mereka diterima. Pelamar perempuan diberi label facet d dalam kasus ini. Jika pelamar laki-laki terdiri dari 54% dari pelamar yang ditolak dan 68% dari pelamar yang diterima, maka tidak ada perbedaan demografis untuk aspek ini karena tingkat penolakan kurang dari tingkat penerimaan. Pelamar pria diberi label facet a dalam kasus ini.

Rumus untuk disparitas demografis untuk aspek yang kurang disukai d adalah sebagai berikut:

        DD d = n d (0) /n (0) - n d (1) /n (1) = P d R (y 0) - P d A (y 1)

Di mana:

  • n (0) = n a (0) + n d (0) adalah jumlah total hasil yang ditolak dalam kumpulan data untuk aspek yang disukai a dan aspek yang kurang beruntung d.

  • n (1) = n a (1) + n d (1) adalah jumlah total hasil yang diterima dalam kumpulan data untuk aspek yang disukai a dan aspek yang kurang beruntung d.

  • P d R (y 0) adalah proporsi hasil yang ditolak (dengan nilai 0) dalam segi d.

  • P d A (y 1) adalah proporsi hasil yang diterima (nilai 1) dalam segi d.

Untuk contoh penerimaan perguruan tinggi, perbedaan demografis untuk wanita adalah DD d = 0,46 - 0,32 = 0,14. Untuk pria DD a = 0,54 - 0,68 = - 0,14.

Metrik disparitas demografis bersyarat (CDD) yang mengkondisikan DD pada atribut yang menentukan strata subkelompok pada kumpulan data diperlukan untuk mengesampingkan paradoks Simpson. Pengelompokan kembali dapat memberikan wawasan tentang penyebab kesenjangan demografis yang jelas untuk aspek yang kurang disukai. Kasus klasik muncul dalam kasus penerimaan Berkeley di mana pria diterima pada tingkat yang lebih tinggi secara keseluruhan daripada wanita. Statistik untuk kasus ini digunakan dalam contoh perhitungan DD. Namun, ketika subkelompok departemen diperiksa, wanita terbukti memiliki tingkat penerimaan yang lebih tinggi daripada pria ketika dikondisikan oleh departemen. Penjelasannya adalah bahwa wanita telah mendaftar ke departemen dengan tingkat penerimaan yang lebih rendah daripada pria. Meneliti tingkat penerimaan subkelompok mengungkapkan bahwa wanita sebenarnya diterima pada tingkat yang lebih tinggi daripada pria untuk departemen dengan tingkat penerimaan yang lebih rendah.

CDDMetrik memberikan ukuran tunggal untuk semua perbedaan yang ditemukan dalam subkelompok yang ditentukan oleh atribut kumpulan data dengan meratakannya. Ini didefinisikan sebagai rata-rata tertimbang disparitas demografis (DDi) untuk masing-masing subkelompok, dengan setiap disparitas subkelompok tertimbang secara proporsional dengan jumlah pengamatan yang terkandung. Rumus untuk disparitas demografis bersyarat adalah sebagai berikut:

        CDD= (1/n) * Σ i n DD i * i

Di mana:

  • in i = n adalah jumlah total pengamatan dan n i adalah jumlah pengamatan untuk setiap subkelompok.

  • DD i = n i (0) /n (0) - n i (1) /n (1) = P i R (y 0) - P i A (y 1) adalah disparitas demografis untuk subkelompok ith.

Perbedaan demografis untuk subkelompok (DDi) adalah perbedaan antara proporsi hasil yang ditolak dan proporsi hasil yang diterima untuk setiap subkelompok.

Kisaran nilai DD untuk hasil biner untuk kumpulan data lengkap DD d atau untuk subkelompok terkondisionalisasi DD i adalah [-1, +1].

  • +1: ketika tidak ada penolakan dalam segi a atau subkelompok dan tidak ada penerimaan di segi d atau subkelompok

  • Nilai positif menunjukkan ada perbedaan demografis karena aspek d atau subkelompok memiliki proporsi yang lebih besar dari hasil yang ditolak dalam kumpulan data daripada hasil yang diterima. Semakin tinggi nilainya, semakin sedikit faset dan semakin besar perbedaannya.

  • Nilai negatif menunjukkan tidak ada perbedaan demografis karena aspek d atau subkelompok memiliki proporsi yang lebih besar dari hasil yang diterima dalam kumpulan data daripada hasil yang ditolak. Semakin rendah nilainya, semakin disukai fasetnya.

  • -1: ketika tidak ada penolakan dalam segi d atau subkelompok dan tidak ada penerimaan dalam segi a atau subkelompok

Jika Anda tidak mengkondisikan apa pun maka CDD nol jika dan hanya DPL jika nol.

Metrik ini berguna untuk mengeksplorasi konsep diskriminasi langsung dan tidak langsung dan pembenaran obyektif dalam hukum dan yurisprudensi non-diskriminasi UE dan Inggris. Untuk informasi tambahan, lihat Mengapa Keadilan Tidak Dapat Diotomatisasi. Paper ini juga berisi data dan analisis yang relevan dari kasus penerimaan Berkeley yang menunjukkan bagaimana kondisionalisasi pada subkelompok tingkat penerimaan departemen menggambarkan paradoks Simpson.