Sesgo de los datos previo al entrenamiento

Modo de enfoque

Sesgo de los datos previo al entrenamiento - Amazon SageMaker AI

Amazon SageMaker aclara los términos de sesgo y equidad Cuadernos de ejemplo

El sesgo algorítmico, la discriminación, la equidad y temas relacionados se han estudiado en disciplinas como el derecho, la política y la informática. Un sistema de computación puede considerarse sesgado si discrimina a determinadas personas o grupos de personas. Los modelos de machine learning que impulsan estas aplicaciones aprenden de los datos, y estos datos podrían reflejar disparidades u otros sesgos inherentes. Por ejemplo, es posible que los datos de entrenamiento no representen lo suficiente a diversos grupos demográficos o podrían contener etiquetas sesgadas. Los modelos de machine learning basados en conjuntos de datos que presentan estos sesgos podrían terminar aprendiendo esos sesgos y luego reproducirlos o incluso exacerbarlos en sus predicciones. El campo de machine learning brinda la oportunidad de abordar los sesgos al detectarlos y medirlos en cada etapa del ciclo de vida de ML. Puede usar Amazon SageMaker Clarify para determinar si los datos utilizados para los modelos de entrenamiento codifican algún sesgo.

El sesgo se puede medir antes y después del entrenamiento, y se puede supervisar al compararlo con las referencias después de implementar los modelos en los puntos de conexión para realizar inferencias. Las métricas del sesgo previas al entrenamiento están diseñadas para detectar y medir el sesgo en los datos sin procesar antes de usarlos para entrenar un modelo. Las métricas utilizadas son independientes del modelo porque no dependen de los resultados de ningún modelo. Sin embargo, hay diferentes conceptos de equidad que requieren distintas medidas de sesgo. Amazon SageMaker Clarify proporciona métricas de sesgo para cuantificar varios criterios de equidad.

Para obtener información adicional sobre las métricas de sesgo, consulte Descubra cómo Amazon SageMaker Clarify ayuda a detectar medidas de sesgo y equidad para Machine Learning in Finance.

Amazon SageMaker aclara los términos de sesgo y equidad

SageMaker Clarify utiliza la siguiente terminología para hablar sobre los prejuicios y la imparcialidad.

Característica: Propiedad o característica medible individual de un fenómeno que se observa, contenida en una columna para datos tabulares.
Etiqueta: Característica que es el objetivo para entrenar un modelo de machine learning. Se conoce como etiqueta observada o resultado observado.
Etiqueta predicha: La etiqueta según la predice el modelo. También se conoce como resultado predicho.
Muestra: Entidad observada que se describe mediante los valores de la característica y el valor de la etiqueta, incluidos en una fila para datos tabulares.
Conjunto de datos: Una colección de muestras.
Sesgo: Un desequilibrio en los datos de entrenamiento o en el comportamiento de predicción del modelo en diferentes grupos, como la edad o el nivel de ingresos. Los sesgos pueden deberse a los datos o el algoritmo utilizados para entrenar el modelo. Por ejemplo, si un modelo de ML se basa principalmente en datos de personas de mediana edad, es posible que sea menos preciso al hacer predicciones que involucren a personas jóvenes y de edad avanzada.
Métrica de sesgo: Función que devuelve valores numéricos que indican el nivel de un sesgo potencial.
Informe de sesgo: Una colección de métricas de sesgo para un conjunto de datos determinado o una combinación de un conjunto de datos y un modelo.
Valores de etiqueta positivos: Valores de etiqueta que son favorables a un grupo demográfico observado en una muestra. En otras palabras, designa que una muestra tiene un resultado positivo.
Valores de etiqueta negativos: Valores de etiqueta que son desfavorables a un grupo demográfico observado en una muestra. En otras palabras, designa que una muestra tiene un resultado negativo.
Variable de grupo: Columna categórica del conjunto de datos que se utiliza para formar subgrupos para la medición de la disparidad demográfica condicional (CDD). Solo se requiere para esta métrica en lo que respecta a la paradoja de Simpson.
Faceta: Columna o característica que contiene los atributos con respecto a los cuales se mide el sesgo.
Valor de faceta: Los valores de la característica de los atributos que el sesgo puede favorecer o desfavorecer.
Probabilidad predicha: La probabilidad, según lo previsto por el modelo, de que una muestra tenga un resultado positivo o negativo.

Cuadernos de ejemplo

Amazon SageMaker Clarify proporciona el siguiente ejemplo de cuaderno para la detección de sesgos:

Explicabilidad y detección de sesgos con Amazon SageMaker Clarify: utilice SageMaker Clarify para crear un trabajo de procesamiento para detectar sesgos y explicar las predicciones del modelo con atribuciones de características.

Se ha verificado que este portátil solo funciona en Amazon SageMaker Studio. Si necesitas instrucciones sobre cómo abrir un bloc de notas en Amazon SageMaker Studio, consultaCrear o abrir un bloc de notas Amazon SageMaker Studio Classic. Si se le pide que elija un kernel, elija Python 3 (ciencia de datos).