Genera informes en Studio para detectar sesgos en SageMaker los datos previos al entrenamiento - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Genera informes en Studio para detectar sesgos en SageMaker los datos previos al entrenamiento

SageMaker Clarify está integrado con Amazon SageMaker Data Wrangler, lo que puede ayudarle a identificar los sesgos durante la preparación de los datos sin tener que escribir su propio código. Data Wrangler ofrece una end-to-end solución para importar, preparar, transformar, caracterizar y analizar datos con Amazon Studio. SageMaker Para obtener información general acerca del flujo de trabajo de preparación de datos de Data Wrangler, consulte Prepare datos de aprendizaje automático con Amazon SageMaker Data Wrangler.

Usted especifica los atributos de interés, como el sexo o la edad, y SageMaker Clarify ejecuta un conjunto de algoritmos para detectar la presencia de sesgos en esos atributos. Una vez ejecutado el algoritmo, SageMaker Clarify proporciona un informe visual con una descripción de las fuentes y la gravedad del posible sesgo para que pueda planificar las medidas para mitigarlo. Por ejemplo, en un conjunto de datos financieros que contiene pocos ejemplos de préstamos empresariales concedidos a un grupo de edad en comparación con otros SageMaker , señala el desequilibrio para evitar un modelo que desfavorezca a ese grupo de edad.

Para analizar e informar sobre el sesgo de los datos

Para comenzar a utilizar Data Wrangler, consulte Introducción a Data Wrangler.

  1. En Amazon SageMaker Studio Classic, en el menú Inicio ( Black square icon representing a placeholder or empty image. ) del panel izquierdo, navegue hasta el nodo Datos y, a continuación, seleccione Data Wrangler. Esto abre la página de inicio de Data Wrangler en Studio Classic.

  2. Pulse el botón + Importar datos para crear un flujo nuevo.

  3. En la página de flujo, en la pestaña Importar, seleccione Amazon S3 vaya a su bucket de Amazon S3, busque su conjunto de datos y, a continuación, seleccione Importar.

  4. Tras importar los datos, en el gráfico de flujo de la pestaña Flujo de datos, elija el signo + situado a la derecha del nodo Tipos de datos.

  5. Elija Agregar análisis.

  6. En la página Crear análisis, elija Informe de sesgo para Tipo de análisis.

  7. Para configurar el informe de sesgo, proporcione un Nombre del informe, la columna que se debe predecir y si se trata de un valor o un umbral, la columna que se va a analizar para detectar el sesgo (la faceta) y si se trata de un valor o un umbral.

  8. Siga con la configuración del informe de sesgo seleccionando las métricas de sesgo.

    Elija la métrica de sesgo.
  9. Elija Detectar sesgos para generar y ver el informe de sesgo. Desplácese hacia abajo para ver todos los informes.

    Genere y visualice el informe de sesgo.
  10. Seleccione el cursor situado a la derecha de la descripción de cada métrica de sesgo para ver la documentación que puede ayudarle a interpretar la importancia de los valores de las métricas.

  11. Para ver un resumen de los valores de las métricas de sesgo en una tabla, seleccione la opción Tabla. Para guardar el informe, elija Guardar en la esquina inferior derecha de la página. Puede ver el informe en el gráfico de flujo de la pestaña Flujo de datos. Haga doble clic en el informe para abrirlo.