训练前的数据偏差 - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

训练前的数据偏差

算法偏差、歧视、公平性和相关主题的研究涉及法律、政策和计算机科学等多个学科。如果计算机系统歧视某些个人或群体,则可能被视为有偏差。为这些应用程序提供支持的机器学习模型从数据中学习,这些数据可能反映出差异或其他固有偏差。例如,训练数据可能无法充分代表各种人口统计群体,或者可能包含有偏差的标签。在表现出这些偏差的数据集上训练的机器学习模型最终可能会学习这些偏差,然后在预测中重现甚至加剧这些偏差。机器学习领域通过在机器学习生命周期的每个阶段检测和衡量偏差,提供了一个解决偏差的机会。您可以使用 Amazon C SageMaker larify 来确定用于训练模型的数据是否对任何偏差进行编码

可以在训练前和训练后衡量偏差,并可在将模型部署到端点进行推理后,根据基准进行监控。训练前偏差指标旨在检测和衡量原始数据中的偏差,然后再将这些数据用于训练模型。所使用的指标与模型无关,因为它们不依赖于任何模型输出。然而,不同的公平概念需要不同的偏差衡量标准。Amaz SageMaker on Clarify 提供了偏见指标来量化各种公平标准。

有关偏见指标的更多信息,请参阅了解 Amazon Cl SageMaker arify 如何帮助检测金融领域机器学习的偏见和公平措施

Amazon SageMaker 澄清偏见和公平条款

SageMaker Clarify 使用以下术语来讨论偏见和公平。

功能

所观察到现象的单个可测量属性或特征,包含在表格数据的一列中。

标签

作为机器学习模型训练目标的特征。称为观测标签观测结果

预测标签

模型预测的标签。也称为预测结果

样本

观测到的实体,由特征值和标签值描述,包含在表格数据的一行中。

数据集

样本集合。

偏差

不同群体(如年龄或收入阶层)的训练数据或模型预测行为的不平衡。偏差可能由用于训练模型的数据或算法产生。例如,如果一个机器学习模型主要是根据中年人的数据进行训练,那么在对年轻人和老年人进行预测时,其准确性可能会降低。

偏差指标

返回表示潜在偏差程度的数值的函数。

偏差报告

给定数据集的偏差指标集合,或数据集和模型的组合。

阳性标签值

在样本中观测到的有利于人口统计群体的标签值。换句话说,将样本指定为阳性结果

阴性标签值

在样本中观测到的不利人口统计群体的标签值。换句话说,将样本指定为阴性结果

组变量

数据集的类别列,用于形成用于衡量有条件的人口差异的子组 ()。CDD仅在有关辛普森悖论的这一指标中需要。

分面

包含测量偏差所依据的属性的列或特征。

分面值

偏差可能有利或不利的属性的特征值。

预测概率

模型预测的样本出现阳性或阴性结果的概率。

示例笔记本

Amaz SageMaker on Clarify 提供了以下用于偏见检测的笔记本示例:

本笔记本经过验证,只能在 Amazon SageMaker Studio 中运行。如果您需要有关如何在 Amazon SageMaker Studio 中打开笔记本的说明,请参阅创建或打开 Amazon SageMaker Studio 经典笔记本电脑。如果系统提示您选择内核,请选择 Python 3 (Data Science)