Detección del sesgo de los datos previos al entrenamiento - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Detección del sesgo de los datos previos al entrenamiento

El sesgo algorítmico, la discriminación, la equidad y temas relacionados se han estudiado en disciplinas como el derecho, la política y la informática. Un sistema de computación puede considerarse sesgado si discrimina a determinadas personas o grupos de personas. Los modelos de machine learning que impulsan estas aplicaciones aprenden de los datos, y estos datos podrían reflejar disparidades u otros sesgos inherentes. Por ejemplo, es posible que los datos de entrenamiento no representen lo suficiente a diversos grupos demográficos o podrían contener etiquetas sesgadas. Los modelos de machine learning basados en conjuntos de datos que presentan estos sesgos podrían terminar aprendiendo esos sesgos y luego reproducirlos o incluso exacerbarlos en sus predicciones. El campo de machine learning brinda la oportunidad de abordar los sesgos al detectarlos y medirlos en cada etapa del ciclo de vida de ML. Puede usar Amazon SageMaker Clarify para determinar si los datos utilizados para los modelos de entrenamiento codifican algún sesgo.

El sesgo se puede medir antes y después del entrenamiento, y se puede supervisar al compararlo con las referencias después de implementar los modelos en los puntos de conexión para realizar inferencias. Las métricas del sesgo previas al entrenamiento están diseñadas para detectar y medir el sesgo en los datos sin procesar antes de usarlos para entrenar un modelo. Las métricas utilizadas son independientes del modelo porque no dependen de los resultados de ningún modelo. Sin embargo, hay diferentes conceptos de equidad que requieren distintas medidas de sesgo. Amazon SageMaker Clarify proporciona métricas de sesgo para cuantificar varios criterios de equidad.

Para obtener información adicional sobre las métricas de sesgo, consulte Descubra cómo Amazon SageMaker Clarify ayuda a detectar medidas de sesgo y equidad para Machine Learning in Finance.

Amazon SageMaker aclara los términos de sesgo y equidad

SageMaker Clarify utiliza la siguiente terminología para hablar sobre los prejuicios y la imparcialidad.

Característica

Propiedad o característica medible individual de un fenómeno que se observa, contenida en una columna para datos tabulares.

Etiqueta

Característica que es el objetivo para entrenar un modelo de machine learning. Se conoce como etiqueta observada o resultado observado.

Etiqueta predicha

La etiqueta según la predice el modelo. También se conoce como resultado predicho.

Muestra

Entidad observada que se describe mediante los valores de la característica y el valor de la etiqueta, incluidos en una fila para datos tabulares.

Conjunto de datos

Una colección de muestras.

Bias

Un desequilibrio en los datos de entrenamiento o en el comportamiento de predicción del modelo en diferentes grupos, como la edad o el nivel de ingresos. Los sesgos pueden deberse a los datos o el algoritmo utilizados para entrenar el modelo. Por ejemplo, si un modelo de ML se basa principalmente en datos de personas de mediana edad, es posible que sea menos preciso al hacer predicciones que involucren a personas jóvenes y de edad avanzada.

Métrica de sesgo

Función que devuelve valores numéricos que indican el nivel de un sesgo potencial.

Informe de sesgo

Una colección de métricas de sesgo para un conjunto de datos determinado o una combinación de un conjunto de datos y un modelo.

Valores de etiqueta positivos

Valores de etiqueta que son favorables a un grupo demográfico observado en una muestra. En otras palabras, designa que una muestra tiene un resultado positivo.

Valores de etiqueta negativos

Valores de etiqueta que son desfavorables a un grupo demográfico observado en una muestra. En otras palabras, designa que una muestra tiene un resultado negativo.

Variable de grupo

Columna categórica del conjunto de datos que se utiliza para formar subgrupos para la medición de la disparidad demográfica condicional (). CDD Solo se requiere para esta métrica en lo que respecta a la paradoja de Simpson.

Faceta

Columna o característica que contiene los atributos con respecto a los cuales se mide el sesgo.

Valor de faceta

Los valores de la característica de los atributos que el sesgo puede favorecer o desfavorecer.

Probabilidad predicha

La probabilidad, según lo previsto por el modelo, de que una muestra tenga un resultado positivo o negativo.

Cuadernos de ejemplo

Amazon SageMaker Clarify proporciona el siguiente ejemplo de cuaderno para la detección de sesgos:

Se ha verificado que este portátil solo funciona en Amazon SageMaker Studio. Si necesitas instrucciones sobre cómo abrir un bloc de notas en Amazon SageMaker Studio, consultaCrear o abrir un bloc de notas Amazon SageMaker Studio Classic. Si se le pide que elija un kernel, elija Python 3 (ciencia de datos).