Atribuciones de características que utilizan valores Shapley

SageMaker Clarify proporciona atribuciones de características basadas en el concepto del valor de Shapley. Puede utilizar los valores Shapley para determinar la contribución de cada característica a las predicciones del modelo. Estas atribuciones se pueden proporcionar para predicciones específicas y a nivel global para el modelo en su conjunto. Por ejemplo, si utilizó un modelo de aprendizaje automático para las admisiones a la universidad, las explicaciones podrían ayudar a determinar si la característica principal responsable de las predicciones del modelo fue la SAT puntuación GPA o la puntuación, y luego podrá determinar qué tan responsable fue cada característica a la hora de determinar la decisión de admisión de un estudiante en particular.

SageMaker Clarify ha tomado el concepto de valores de Shapley de la teoría de juegos y lo ha utilizado en un contexto de aprendizaje automático. El valor Shapley proporciona una forma de cuantificar la contribución de cada jugador a un juego y, por lo tanto, permite distribuir la ganancia total generada por un juego entre sus jugadores en función de sus contribuciones. En este contexto de aprendizaje automático, SageMaker Clarify trata la predicción del modelo en una instancia determinada como el juego y las características incluidas en el modelo como jugadores. Para hacer una primera aproximación, puede que se sienta tentado a determinar la contribución o el efecto marginal de cada característica cuantificando el resultado de eliminar esa característica del modelo o de eliminar todas las demás características del modelo. Sin embargo, este enfoque no tiene en cuenta que las características incluidas en un modelo no suelen ser independientes unas de otras. Por ejemplo, si dos entidades están altamente correlacionadas, es posible que la eliminación de cualquiera de las características no altere significativamente la predicción del modelo.

Para abordar estas posibles dependencias, el valor Shapley requiere que se tenga en cuenta el resultado de cada posible combinación (o coalición) de características para determinar la importancia de cada característica. Dadas d características, hay 2^d combinaciones de características posibles, cada una de las cuales corresponde a un modelo potencial. Para determinar la atribución de una característica f determinada, considere la contribución marginal de incluir f en todas las combinaciones de características (y los modelos asociados) que no contengan f y tome la media. Se puede demostrar que el valor Shapley es la forma única de asignar la contribución o importancia de cada característica que satisface determinadas propiedades deseables. En particular, la suma de los valores Shapley de cada característica corresponde a la diferencia entre las predicciones del modelo y las de un modelo ficticio sin características. Sin embargo, incluso para valores razonables de d, por ejemplo, 50 características, desde el punto de vista computacional resulta prohibitivo, además de poco práctico, entrenar 2^d modelos posibles. Como resultado, SageMaker Clarify necesita utilizar varias técnicas de aproximación. Para ello, SageMaker Clarify utiliza Shapley Additive exPlanations (SHAP), que incorpora dichas aproximaciones e ideó una implementación escalable y eficiente del algoritmo SHAP Kernel mediante optimizaciones adicionales.

Para obtener información adicional sobre los valores Shapley, consulte A Unified Approach to Interpreting Model Predictions.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Explicabilidad del modelo

Valores asimétricos de Shapley