有条件的人口差异 () CDD - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

有条件的人口差异 () CDD

人口统计差异 (DD) 决定了某一分面在数据集中被拒绝结果的比例是否高于被接受结果的比例。在有两个分面(例如男性和女性)构成数据集的二进制情况下,不利分面被标注为分面 d,有利分面被标注为分面 a。例如,在大学录取场景中,如果女性申请人占被拒绝申请人的 46%,而只占被录取申请人的 32%,我们就会说这是一种人口统计差异,因为女性被拒绝的比率超过了她们被录取的比率。在这种情况下,女性申请人被标注为分面 d。如果男性申请人占被拒绝申请人的 54%,占被录取申请人的 68%,那么这一分面就不存在人口统计差异,因为拒绝率低于录取率。在这种情况下,男性申请人被标注为分面 a

较不利分面 d 的人口统计差异公式如下:

        DDd = nd(0)/n(0) - nd(1)/n(1) = PdR(y0) - PdA(y1)

其中:

  • n(0) = na(0) + nd(0) 是数据集中有利分面 a 和不利分面 d 的被拒绝结果总数。

  • n(1) = na(1) + nd(1) 是数据集中有利分面 a 和不利分面 d 的被接受结果总数。

  • PdR(y0) 是分面 d 中被拒绝结果(值为 0)的比例。

  • PdA(y1) 是分面 d 中被接受结果(值为 1)的比例。

以大学录取为例,女性的人口统计差异为 DDd = 0.46 - 0.32 = 0.14。男性则为 DDa = 0.54 - 0.68 = - 0.14。

为了排除辛普森的悖论,需要一个有条件的人口差异 (CDD) 指标,该指标将 DD 设定在定义数据集上子组分层的属性上。通过重新分组,可以深入了解较不利分面出现明显人口统计差异的原因。经典案例是伯克利大学招生案例,该大学的男性录取率总体上高于女性。DD 的示例计算中使用了该案例的统计数据。但研究院系子组后,我们发现,在某些院系,女性的录取率高于男性。对此的解释是,女性申请的院系比男性申请的院系的录取率低。研究子组录取率后发现,在录取率较低的院系中,女性的录取率实际上高于男性。

该CDD指标通过对数据集的属性定义的子组中发现的所有差异进行求平均值,从而对这些差异进行单一衡量。它被定义为每个子组的人口统计差异 (DDi) 的加权平均值,每个子组的差异根据所含观测值的数量按比例加权。条件人口统计差异公式如下:

        CDD= (1/n) n * D i D i * i

其中:

  • ini = n 是观测值的总数,ni 是每个子组的观测值数。

  • DDi = ni(0)/n(0) - ni(1)/n(1) = PiR(y0) - PiA(y1) 是第 i 个子组的人口统计差异。

子组 (DDi) 的人口统计差异是每个子组被拒绝结果的比例与被接受结果的比例之间的差异。

整个数据集 DDd 或其条件化子组 DDi 的二进制结果的 DD 值范围为 [-1, +1]。

  • +1:当分面 a 或子组中拒绝率为零且分面 d 或子组中接受率为零时

  • 正值表示存在人口统计差异,因为分面 d 或子组在数据集中被拒绝结果的比例高于被接受结果的比例。值越高,该分面就越不利,差异也越大。

  • 负值表示不存在人口统计差异,因为分面 d 或子组在数据集中被接受结果的比例高于被拒绝结果的比例。值越低,该分面就越有利。

  • -1:当分面 d 或子组中的拒绝率为零且分面 a 或子组中接受率为零时

如果你不以任何东西为条件,那么CDD当且仅当为零时才DPL为零。

该指标有助于探讨直接和间接歧视的概念,以及欧盟和英国非歧视法和判例中的客观理由的概念。有关更多信息,请参阅 Why Fairness Cannot Be Automated(为何无法自动实现公平)。这篇论文还包含伯克利招生案例的相关数据和分析,该案例介绍了以院系录取率子组为条件如何说明辛普森悖论。