预测标签中的条件人口统计差异 (CDDPL)
人口统计差异 (DDPL) 指标用于确定分面 d 中预测拒绝标签比例是否大于预测接受标签比例。它可以比较不同分面的预测拒绝比例和预测接受比例的差异。该指标与训练前 CDD 指标完全相同,只不过它是根据预测标签而不是观测标签进行计算。该指标的范围是 (-1,+1)。
分面 d 标签的人口统计差异预测公式如下:
DDPLd = n'd(0)/n'(0) - n'd(1)/n'(1) = PdR(y'0) - PdA(y'1)
其中:
-
n'(0) = n'a(0) + n'd(0) 是分面 a 和 d 的预测拒绝标签数。
-
n'(1) = n'a(1) + n'd(1) 是分面 a 和 d 的预测接受标签数。
-
PdR(y'0) 是分面 d 中预测拒绝标签(值 0)的比例。
-
PdA(y'1) 是分面 d 中预测接受标签(值 1)的比例。
为了排除辛普森悖论,需要使用预测标签中的条件人口统计差异 (CDDPL) 指标,该指标根据数据集上定义子组层次的属性来限制 DDPL。通过重新分组,可以深入了解较不利分面出现明显人口统计差异的原因。经典案例是伯克利大学招生案例,该大学的男性录取率总体上高于女性。但研究院系子组后,我们发现,在某些院系,女性的录取率高于男性。对此的解释是,女性申请的院系比男性申请的院系的录取率低。研究子组录取率后发现,在录取率较低的院系中,女性的录取率实际上高于男性。
CDDPL 指标通过对数据集的某一属性所定义的子组中发现的所有差异进行平均,从而给出一个单一的衡量标准。它被定义为每个子组的预测标签中的人口统计差异 (DDPLi) 的加权平均值,每个子组的差异根据所含观测值的数量按比例加权。预测标签中的条件人口统计差异的公式如下:
CDDPL = (1/n)*∑ini *DDPLi
其中:
-
∑ini = n 是观测值的总数,ni 是每个子组的观测值数。
-
DDPLi = n'i(0)/n(0) - n'i(1)/n(1) = PiR(y'0) - PiA(y'1) 是该子组的预测标签中的人口统计差异。
因此,子组的预测标签中的人口统计差异 (DDPLi) 是每个子组的预测拒绝标签比例与预测接受标签比例之间的差异。
二进制、多类别和连续结果的 DDPL 值范围为 [-1,+1]。
-
+1:当分面 a 或子组没有预测拒绝标签且分面 d 或子组没有预测接受标签时。
-
正值表示预测标签中存在人口统计差异,因为分面 d 或子组的预测拒绝标签比例高于预测接受标签比例。值越大,差异就越大。
-
接近零的值表示平均而言没有人口统计差异。
-
负值表示预测标签中存在人口统计差异,因为分面 a 或子组的预测拒绝标签比例高于预测接受标签比例。值越小,差异就越大。
-
-1:当分面 d 或子组没有预测拒绝标签且分面 a 或子组没有预测接受标签时。