Valores asimétricos de Shapley - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Valores asimétricos de Shapley

La solución de explicación del modelo de pronóstico de series temporales de SageMaker Clarify es un método de atribución de características basado en la teoría de juegos cooperativos, similar en espíritu al SHAP. En concreto, Clarify utiliza valores de grupos de orden aleatorio, también conocidos como valores asimétricos de Shapley en el ámbito del machine learning y la explicabilidad.

Introducción

El objetivo es calcular las atribuciones de las características de entrada para un modelo de previsión f determinado. El modelo de previsión incluye las siguientes entradas:

  • Series temporales pasadas (objetivo TS). Por ejemplo, podría tratarse de pasajeros de tren diarios pasados en la ruta París-Berlín, que se denotan con x t.

  • (Opcional) Una serie temporal covariable. Por ejemplo, podrían ser datos meteorológicos y de días festivos, que se denotan mediante zt ​∈ RS. Cuando se usa, la covariable TS podría estar disponible solo para los pasos temporales pasados o también para los futuros (incluidos en el calendario de festivos).

  • (Opcional) Covariables estáticas, como la calidad del servicio (por ejemplo, de primera o segunda clase), que se denotan mediante u ∈ RE.

Se pueden omitir las covariables estáticas, las covariables dinámicas o ambas, según el escenario de aplicación específico. Dado un horizonte de predicción K ≥ 0 (por ejemplo, K = 30 días), la predicción del modelo se puede caracterizar mediante la fórmula: f(x[1:T], z[1:T+K], u) = x[T+1:T +K+1].

En el siguiente diagrama, se muestra una estructura de dependencia de un modelo de predicción típico. La predicción en el tiempo t+1 depende de los tres tipos de entradas mencionados anteriormente.

Estructura de dependencias para un modelo de predicción típico.

Método

Las explicaciones se calculan consultando el modelo de series temporales f en una serie de puntos que se obtienen mediante la entrada original. Siguiendo las construcciones de la teoría de juegos, Clarify hace una media de las diferencias en las predicciones dirigidas ofuscando (es decir, fijando un valor de referencia) partes de las entradas de forma iterativa. Se puede navegar por la estructura temporal en orden cronológico, anticronológico o en ambos. Las explicaciones cronológicas se construyen añadiendo información de forma iterativa desde el primer paso temporal, mientras que las anticronológicas desde el último paso. Este último modo podría ser más apropiado en presencia de un sesgo de actualidad, por ejemplo, para pronosticar los precios de las acciones. Una propiedad importante de las explicaciones calculadas es que se suman al resultado del modelo original si el modelo proporciona resultados deterministas.

Atribuciones resultantes

Las atribuciones resultantes son puntuaciones que marcan las contribuciones individuales de determinados pasos de tiempo o características de entrada a la previsión final de cada paso de tiempo pronosticado. Clarify ofrece los dos niveles de detalle siguientes para las explicaciones:

  • Las explicaciones temporales son poco costosas y solo proporcionan información sobre pasos de tiempo concretos, como cuánto contribuyó la información del día 19 en el pasado a la previsión del día 1 en el futuro. Estas atribuciones no explican las covariables estáticas de forma individual ni las explicaciones agregadas de las series temporales objetivo y covariables. Las atribuciones son una matriz A en la que cada Atk es la atribución del paso de tiempo t a la previsión del paso de tiempo temporal T+k. Tenga en cuenta que si el modelo acepta covariables futuras, t puede ser mayor que T.

  • Las explicaciones afinadas utilizan más capacidad computacional y proporcionan un desglose completo de todas las atribuciones de las variables de entrada.

    nota

    Las explicaciones afinadas solo admiten el orden cronológico.

    Las atribuciones resultantes son un triplete compuesto por lo siguiente:

    • Matriz Ax ∈ RT×K relacionada con la serie temporal de entrada, donde Atkx​ es la atribución de xt para el paso de previsión T+k

    • Tensor AzRT+K×S×K relacionado con la serie temporal covariable, donde Atskz​ es la atribución de zts​ (es decir, la TS covariable sth) para el paso de previsión T+k

    • Matriz Au ∈ RE×K relacionada con las covariables estáticas, donde Aeku es la atribución de ue (la covariable estática eth) al paso de previsión T+k

Independientemente del nivel de detalle, la explicación también contiene un vector de desplazamiento BRK que representa el comportamiento básico del modelo cuando todos los datos están ofuscados.