Valores assimétricos de Shapley - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Valores assimétricos de Shapley

A solução de explicação do modelo de previsão de séries temporais SageMaker Clarify é um método de atribuição de recursos baseado na teoria dos jogos cooperativos, semelhante em espírito ao SHAP. Especificamente, o Clarify usa valores de grupos de ordem aleatória, também conhecidos como valores assimétricos de Shapley em machine learning e explicabilidade.

Contexto

O objetivo é calcular as atribuições dos atributos de entrada de um determinado modelo de previsão f. O modelo de previsão recebe as seguintes entradas:

  • Série temporal passada (TS de destino). Por exemplo, pode ser os passageiros de trem diários do passado na rota Paris-Berlim, indicada por xt.

  • (Opcional) Uma série temporal covariável. Por exemplo, podem ser festividades e dados meteorológicos, indicados por zt ​∈ RS. Quando usada, a covariável TS pode estar disponível apenas para intervalos de tempos passados ou também para os futuros (incluídos no calendário festivo).

  • (Opcional) Covariáveis estáticas, como qualidade de serviço (como 1ª ou 2ª classe), indicadas por u ∈ RE.

Covariáveis estáticas, covariáveis dinâmicas ou ambas podem ser omitidas, dependendo do cenário de aplicação específico. Dado um horizonte de predição K ≥ 0 (por exemplo, K = 30 dias), a predição de modelo pode ser caracterizada pela fórmula: f(x[1:T], z[1:T+K], u) = x[T+1:T +K+1].

O diagrama a seguir mostra uma estrutura de dependência para um modelo de previsão típico. A predição no tempo t+1 depende dos três tipos de entradas mencionados anteriormente.

Estrutura de dependência para um modelo de previsão típico.

Método

As explicações são calculadas consultando o modelo de série temporal f em uma série de pontos derivados da entrada original. Seguindo os constructos teóricas dos jogos, o Clarify calcula a média das diferenças nas predições conduzidas pela ofuscação (ou seja, pela definição de um valor básico) de partes das entradas de forma iterativa. A estrutura temporal pode ser navegada em ordem cronológica, anticronológica ou ambas. As explicações cronológicas são criadas adicionando informações iterativamente do primeiro intervalo de tempo, enquanto anticronológicas a partir do último. O último modo pode ser mais apropriado na presença de desvio de recência, como na previsão dos preços de ações. Uma propriedade importante das explicações computadas é que elas somam a saída do modelo original se o modelo fornecer saídas determinísticas.

Atribuições resultantes

As atribuições resultantes são pontuações que marcam contribuições individuais de intervalos de tempo específicos ou atributos de entrada para a previsão final em cada intervalo de tempo previsto. O Clarify oferece as duas granularidades a seguir para explicações:

  • As explicações temporais são econômicas e fornecem informações apenas sobre intervalos de tempo específicos, como o quanto as informações do 19º dia no passado contribuíram para a previsão do 1.º dia no futuro. Essas atribuições não explicam as covariáveis estáticas individualmente e as explicações agregadas das séries temporais covariáveis e de destino. As atribuições são uma matriz A em que cada Atk é a atribuição do intervalo de tempo t para a previsão do intervalo de tempo T+k. Observe que, se o modelo aceitar covariáveis futuras, t pode ser maior que T.

  • Explicações refinadas são mais intensivas em termos computacionais e fornecem uma análise completa de todas as atribuições das variáveis de entrada.

    nota

    Explicações refinadas são compatíveis com apenas a ordem cronológica.

    As atribuições resultantes são um trio composto pelo seguinte:

    • Matriz Ax ∈ RT×K relacionada à série temporal de entrada, em que Atkx​ é a atribuição de xt para a previsão de T+k

    • Tensor Au ∈ RE×K relacionado à série temporal de covariável, em que Atskz​ é a atribuição de zts​ (ou seja, a sétima covariável TS) para a previsão de T+k

    • Matriz Au ∈ RE×K relacionada às covariáveis estáticas, em que Aeku é a atribuição de ue (a oitava covariável estática) para a previsão de T+k

Independentemente da granularidade, a explicação também contém um vetor de deslocamento BRK que representa o “comportamento básico” do modelo quando todos os dados são ofuscados.