Desviación de sesgo de modelos en producción
La supervisión de sesgos de Amazon SageMaker Clarify ayuda a los científicos de datos y a los ingenieros de ML a supervisar las predicciones de sesgo de forma regular. A medida que se supervisa el modelo, los clientes pueden ver informes y gráficos exportables que detallan los sesgos en SageMaker Studio y configurar alertas en Amazon CloudWatch para recibir notificaciones si se detecta un sesgo que supere un umbral determinado. El sesgo puede introducirse o agravarse en los modelos de ML implementados cuando los datos de entrenamiento difieren de los datos que el modelo ve durante la implementación (es decir, los datos en tiempo real). Estos tipos de cambios en la distribución de los datos en tiempo real pueden ser temporales (por ejemplo, debido a algunos eventos efímeros del mundo real) o permanentes. En cualquier caso, podría ser importante detectar estos cambios. Por ejemplo, los resultados de un modelo para predecir los precios de las viviendas pueden sesgarse si las tasas hipotecarias utilizadas para elaborar el modelo difieren de las tasas hipotecarias actuales del mundo real. Con las funciones de detección de sesgos del monitor de modelos, cuando SageMaker detecta sesgos por encima de un determinado umbral, genera automáticamente métricas que puede ver en SageMaker Studio y mediante alertas de Amazon CloudWatch.
En general, medir el sesgo solo durante la fase de entrenamiento e implementación puede no ser suficiente. Es posible que, una vez implementado el modelo, la distribución de los datos que ve el modelo implementado (es decir, los datos en tiempo real) sea diferente de la distribución de los datos en el conjunto de datos de entrenamiento. Este cambio podría introducir sesgos en un modelo a lo largo del tiempo. El cambio en la distribución de los datos en tiempo real puede ser temporal (por ejemplo, debido a algún comportamiento efímero, como la temporada navideña) o permanente. En cualquier caso, puede ser importante detectar estos cambios y tomar medidas para reducir el sesgo cuando sea apropiado.
Para detectar estos cambios, SageMaker Clarify proporciona la funcionalidad de supervisión continua de las métricas de sesgo de un modelo implementado y la emisión de alertas automatizadas si las métricas superan un umbral. Por ejemplo, considere la métrica de sesgo DPPL. Especifique un rango de valores permitido A=(amin,amax), por ejemplo, un intervalo de (-0,1, 0,1), al que debe pertenecer DPPL durante la implementación. Cualquier desviación de este rango debería generar una alerta de sesgo detectado. Con SageMaker Clarify, puede realizar estas comprobaciones a intervalos regulares.
Por ejemplo, puede establecer la frecuencia de las comprobaciones en 2 días. Esto significa que SageMaker Clarify calcula la métrica DPPL a partir de los datos recopilados durante un período de 2 días. En este ejemplo, Dwin son los datos que el modelo procesó durante el último período de 2 días. Se emite una alerta si el valor bwin de DPPL calculado en Dwin se encuentra fuera del rango permitido A. Este enfoque para comprobar si bwin está fuera de A puede resultar algo confuso. Dwin puede constar de muy pocas muestras y puede no ser representativo de la distribución de datos en tiempo real. El tamaño pequeño de la muestra significa que el valor del sesgo bwin calculado sobre Dwin podría no ser una estimación muy sólida. De hecho, se pueden observar valores de bwin muy altos (o bajos) por pura casualidad. Para garantizar que las conclusiones extraídas de Dwin de los datos observados sean estadísticamente significativas, SageMaker Clarify utiliza intervalos de confianza. En concreto, utiliza el método de intervalo Bootstrap normal para construir un intervalo C=(cmin,cmax) de forma que SageMaker Clarify esté seguro de que el verdadero valor de sesgo calculado sobre todos los datos en directo está contenido en C con una alta probabilidad. Ahora, si el intervalo de confianza C se superpone con el rango permitido A, SageMaker Clarify lo interpreta de la siguiente manera: “es probable que el valor métrico de sesgo de la distribución de datos en directo esté dentro del rango permitido”. Si C y A son disjuntos, SageMaker Clarify está seguro de que la métrica de sesgo no se encuentra en A y genera una alerta.
Cuaderno de ejemplo del monitor de modelos
Amazon SageMaker Clarify proporciona el siguiente cuaderno de ejemplo que muestra cómo capturar datos de inferencia para un punto de conexión en tiempo real, crear una referencia para supervisar la evolución del sesgo e inspeccionar los resultados:
-
Supervisión de la desviación de sesgo y la desviación de la atribución de características de Amazon SageMaker Clarify
: utilice el monitor de modelos de Amazon SageMaker para supervisar la desviación de sesgo y la desviación de la atribución de características a lo largo del tiempo.
Solo se ha verificado que este cuaderno se ejecute en Amazon SageMaker Studio. Si necesita instrucciones sobre cómo abrir un cuaderno en Amazon SageMaker Studio, consulte Creación o apertura de una instancia de cuaderno de Amazon SageMaker Studio Classic. Si se le pide que elija un kernel, elija Python 3 (ciencia de datos). Los siguientes temas contienen los aspectos más destacados de los dos últimos pasos y contienen ejemplos de código del cuaderno de ejemplos.
Temas
- Creación de una referencia de desviación de sesgo
- Infracciones de sesgo y desviación
- Parámetros para supervisar la desviación de sesgo
- Programe trabajos de supervisión de desviaciones de sesgo
- Inspección de informes para detectar la desviación de sesgo de los datos
- Métricas de CloudWatch para el análisis de la desviación de sesgo