Usa SageMaker Clarify para explicar y detectar sesgos - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Usa SageMaker Clarify para explicar y detectar sesgos

En este tema se describe cómo entender la imparcialidad y la explicabilidad de los modelos, y cómo explicar y detectar los sesgos con Amazon SageMaker Clarify. Puede configurar un trabajo de procesamiento de SageMaker Clarify para calcular las métricas de sesgo y las atribuciones de características y generar informes para la explicabilidad del modelo. SageMaker Los trabajos de procesamiento de Clarify se implementan mediante una imagen de contenedor especializada de SageMaker Clarify. Las siguientes instrucciones muestran cómo configurar, ejecutar y solucionar problemas de un trabajo de procesamiento SageMaker de Clarify y cómo configurar un análisis.

¿Qué es la imparcialidad y la explicabilidad del modelo para las predicciones del aprendizaje automático?

Los modelos de aprendizaje automático (ML) ayudan a tomar decisiones en ámbitos como los servicios financieros, la sanidad, la educación y los recursos humanos. Los responsables políticos, los reguladores y los defensores han creado conciencia sobre los desafíos éticos y políticos que plantean el aprendizaje automático y los sistemas basados en datos. Amazon SageMaker Clarify puede ayudarlo a comprender por qué su modelo de aprendizaje automático realizó una predicción específica y si este sesgo afecta a esta predicción durante el entrenamiento o la inferencia. SageMaker Clarify también proporciona herramientas que pueden ayudarle a crear modelos de aprendizaje automático menos sesgados y más comprensibles. SageMaker Clarify también puede generar informes de gobernanza modelo que puede proporcionar a los equipos de riesgo y cumplimiento y a los reguladores externos. Con SageMaker Clarify, puede hacer lo siguiente:

  • Detecte el sesgo en las predicciones del modelo y ayude a explicarlas.

  • Identifique los tipos de sesgo en los datos previos al entrenamiento.

  • Identifique los tipos de sesgo en los datos posteriores al entrenamiento que puedan surgir durante el entrenamiento o cuando el modelo esté en producción.

SageMaker Clarify ayuda a explicar cómo sus modelos hacen predicciones mediante las atribuciones de características. También puede monitorear los modelos de inferencia que están en producción para detectar el sesgo y la desviación en la atribución de características. Esta información puede ayudarle en las siguientes áreas:

  • Regulatorio: los responsables políticos y otros reguladores pueden estar preocupados por los impactos discriminatorios de las decisiones que utilizan los resultados de los modelos de aprendizaje automático. Por ejemplo, un modelo de aprendizaje automático puede codificar sesgos e influir en una decisión automatizada.

  • Negocios: los dominios regulados pueden necesitar explicaciones fiables sobre la forma en que los modelos de aprendizaje automático hacen predicciones. La explicabilidad de los modelos puede ser particularmente importante para las industrias que dependen de la confiabilidad, la seguridad y el cumplimiento. Estos pueden incluir los servicios financieros, los recursos humanos, la atención médica y el transporte automatizado. Por ejemplo, es posible que las solicitudes de préstamo deban explicar a los oficiales de préstamos, a los pronosticadores y a los clientes cómo los modelos de aprendizaje automático hacían ciertas predicciones.

  • Ciencia de datos: los científicos de datos y los ingenieros de aprendizaje automático pueden depurar y mejorar los modelos de aprendizaje automático cuando pueden determinar si un modelo hace inferencias basándose en características ruidosas o irrelevantes. También pueden comprender las limitaciones de sus modelos y los modos de falla que pueden encontrar sus modelos.

Para ver una entrada de blog que muestre cómo diseñar y crear un modelo completo de aprendizaje automático para reclamaciones fraudulentas de automóviles que integre SageMaker Clarify en un SageMaker proceso, consulte al arquitecto y cree el ciclo de vida completo del aprendizaje automático con AWS: una SageMaker demostración de end-to-end Amazon. En esta entrada del blog se explica cómo evaluar y mitigar los sesgos antes y después de la formación, y cómo estas características afectan a la predicción del modelo. La entrada del blog contiene enlaces a códigos de ejemplo para cada tarea del ciclo de vida del aprendizaje automático.

Mejores prácticas para evaluar la imparcialidad y la explicabilidad en el ciclo de vida del aprendizaje automático

La imparcialidad como proceso: las nociones de sesgo y equidad dependen de su aplicación. La medición del sesgo y la elección de las métricas de sesgo pueden basarse en consideraciones sociales, legales y otras consideraciones no técnicas. La adopción exitosa de enfoques de aprendizaje automático que tengan en cuenta la equidad incluye la creación de consenso y el logro de la colaboración entre las principales partes interesadas. Estos pueden incluir equipos de productos, políticas, legales, de ingeniería, de inteligencia artificial y aprendizaje automático, usuarios finales y comunidades.

La imparcialidad y la explicabilidad desde el diseño en el ciclo de vida del aprendizaje automático: tenga en cuenta la imparcialidad y la explicabilidad en cada etapa del ciclo de vida del aprendizaje automático. Estas etapas incluyen la formación del problema, la construcción del conjunto de datos, la selección de algoritmos, el proceso de entrenamiento del modelo, el proceso de pruebas, la implementación, la supervisión y la retroalimentación. Es importante contar con las herramientas adecuadas para realizar este análisis. Recomendamos hacer las siguientes preguntas durante el ciclo de vida del aprendizaje automático:

  • ¿Fomenta el modelo los circuitos de retroalimentación que pueden producir resultados cada vez más injustos?

  • ¿Es un algoritmo una solución ética al problema?

  • ¿Los datos de entrenamiento son representativos de diferentes grupos?

  • ¿Hay sesgos en las etiquetas o en las características?

  • ¿Es necesario modificar los datos para mitigar el sesgo?

  • ¿Es necesario incluir las restricciones de equidad en la función objetivo?

  • ¿Se ha evaluado el modelo utilizando métricas de equidad relevantes?

  • ¿Hay efectos desiguales entre los usuarios?

  • ¿Se implementa el modelo en una población para la que no se capacitó ni evaluó?

Mejores prácticas para el proceso de evaluación de la equidad y la explicabilidad del modelo.

Guía de la documentación SageMaker sobre las explicaciones y los sesgos

El sesgo puede producirse y medirse en los datos tanto antes como después de entrenar un modelo. SageMaker Clarify puede proporcionar explicaciones para las predicciones de los modelos después del entrenamiento y para los modelos implementados en producción. SageMaker Clarify también puede monitorear los modelos en producción para detectar cualquier desviación en sus atribuciones explicativas de referencia y calcular las líneas de base cuando sea necesario. La documentación para explicar y detectar los sesgos mediante SageMaker Clarify está estructurada de la siguiente manera:

Cómo funcionan los SageMaker trabajos de procesamiento de Clarify

Puede usar SageMaker Clarify para analizar sus conjuntos de datos y modelos para determinar si son explicables y sesgados. Un trabajo SageMaker de procesamiento de Clarify utiliza el SageMaker contenedor de procesamiento de Clarify para interactuar con un bucket de Amazon S3 que contiene sus conjuntos de datos de entrada. También puede usar SageMaker Clarify para analizar un modelo de cliente que se implementa en un punto final de SageMaker inferencia.

El siguiente gráfico muestra cómo un trabajo de procesamiento SageMaker de Clarify interactúa con los datos de entrada y, opcionalmente, con un modelo de cliente. Esta interacción depende del tipo específico de análisis que se lleve a cabo. El contenedor SageMaker de procesamiento Clarify obtiene el conjunto de datos de entrada y la configuración para su análisis desde un depósito de S3. Para ciertos tipos de análisis, incluido el análisis de características, el contenedor SageMaker de procesamiento Clarify debe enviar las solicitudes al contenedor modelo. A continuación, recupera las predicciones del modelo a partir de la respuesta que envía el contenedor de modelos. Después, el contenedor de SageMaker procesamiento Clarify calcula y guarda los resultados del análisis en el depósito de S3.

SageMaker Clarify puede analizar sus datos o el modelo de un cliente para determinar si son explicables y sesgados.

Puede ejecutar un trabajo de procesamiento SageMaker de Clarify en varias etapas del ciclo de vida del flujo de trabajo de aprendizaje automático. SageMaker Clarify puede ayudarle a calcular los siguientes tipos de análisis:

  • Métricas de sesgo previas al entrenamiento. Estas métricas pueden ayudarte a entender el sesgo de tus datos para que puedas abordarlo y basar tu modelo en un conjunto de datos más justo. Consulte Medición del sesgo previo al entrenamiento para obtener información sobre las métricas de sesgo previas a la capacitación. Para realizar un trabajo de análisis de las métricas de sesgo previas al entrenamiento, debe proporcionar el conjunto de datos y un archivo de configuración del JSON análisis a. Configuración del análisis

  • Métricas de sesgo posteriores al entrenamiento. Estas métricas pueden ayudarte a entender cualquier sesgo introducido por un algoritmo, las opciones de hiperparámetros o cualquier sesgo que no fuera evidente al principio del flujo. Para obtener más información sobre las métricas de sesgo posteriores al entrenamiento, consulte. Medición del sesgo de los datos posteriores al entrenamiento y el modelo SageMaker Clarify utiliza las predicciones del modelo además de los datos y las etiquetas para identificar el sesgo. Para realizar un trabajo de análisis de las métricas de sesgo posteriores al entrenamiento, debes proporcionar el conjunto de datos y un archivo de configuración del JSON análisis. La configuración debe incluir el nombre del modelo o del punto de conexión.

  • Valores bien definidos, que pueden ayudarte a entender el impacto que tiene tu característica en lo que predice tu modelo. Para obtener más información sobre los valores de Shapely, consulte. Atribuciones de características que utilizan valores Shapley Esta característica requiere un modelo entrenado.

  • Gráficas de dependencia parcial (PDPs), que pueden ayudarle a comprender en qué medida cambiaría la variable objetivo prevista si cambiara el valor de una entidad. Para obtener más informaciónPDPs, consulte Análisis de gráficas de dependencia parcial (PDPs) Esta función requiere un modelo entrenado.

SageMaker Clarify necesita modelar las predicciones para calcular las métricas de sesgo y las atribuciones de características posteriores al entrenamiento. Puedes proporcionar un punto final o SageMaker Clarify creará un punto final efímero con el nombre de tu modelo, también conocido como punto final oculto. El contenedor SageMaker Clarify elimina el punto final oculto una vez finalizados los cálculos. En un nivel superior, el contenedor SageMaker Clarify completa los siguientes pasos:

  1. Valida las entradas y los parámetros.

  2. Crea el punto de conexión de sombra (si se proporciona un nombre de modelo).

  3. Carga el conjunto de datos de entrada en un marco de datos.

  4. Obtiene las predicciones del modelo desde el punto de conexión, si es necesario.

  5. Calcula las métricas de sesgo y las atribuciones de características.

  6. Elimina el punto de conexión de sombra.

  7. Genera los resultados del análisis.

Una vez finalizado SageMaker el trabajo de procesamiento de Clarify, los resultados del análisis se guardarán en la ubicación de salida que haya especificado en el parámetro de salida de procesamiento del trabajo. Estos resultados incluyen un JSON archivo con métricas de sesgo y atribuciones de características globales, un informe visual y archivos adicionales para las atribuciones de características locales. Puede descargar los resultados desde la ubicación de salida y verlos.

Para obtener información adicional sobre las métricas de sesgo, la explicabilidad y cómo interpretarlas, consulte Descubra cómo Amazon SageMaker Clarify ayuda a detectar el sesgo, Fairness Measures for Machine Learning in Finance y el documento técnico Amazon AI Fairness and Explainability.

Cuadernos de ejemplo

Las siguientes secciones contienen cuadernos que le ayudarán a empezar a utilizar SageMaker Clarify, a utilizarlo para tareas especiales, incluidas las que se encuentran dentro de un trabajo distribuido, y para la visión artificial.

Introducción

Los siguientes cuadernos de muestra muestran cómo usar SageMaker Clarify para comenzar con las tareas de explicabilidad y modelar los sesgos. Estas tareas incluyen crear un trabajo de procesamiento, entrenar un modelo de aprendizaje automático (ML) y monitorear las predicciones del modelo:

Casos especiales

Los siguientes cuadernos muestran cómo usar un SageMaker Clarify para casos especiales, incluso si está dentro de su propio contenedor, y para tareas de procesamiento del lenguaje natural:

Se ha comprobado que estos blocs de notas funcionan en Amazon SageMaker Studio Classic. Si necesita instrucciones sobre cómo abrir un bloc de notas en Studio Classic, consulteCrear o abrir un bloc de notas Amazon SageMaker Studio Classic. Si se le pide que elija un kernel, elija Python 3 (ciencia de datos).