Desvio de polarização para modelos em produção - Amazon SageMaker

Desvio de polarização para modelos em produção

O monitoramento de desvios do Amazon SageMaker Clarify ajuda cientistas de dados e engenheiros de ML a monitorar regularmente as predições de desvio. À medida que o modelo é monitorado, os clientes podem visualizar relatórios e gráficos exportáveis detalhando o desvio no SageMaker Studio e configurar alertas no Amazon CloudWatch para receber notificações se um desvio além de um determinado limite for detectado. O desvio pode ser introduzido ou exacerbado nos modelos de ML implantados quando os dados de treinamento são diferentes dos dados que o modelo vê durante a implantação (ou seja, os dados dinâmicos). Esses tipos de mudanças na distribuição de dados dinâmicos podem ser temporários (por exemplo, devido a alguns eventos reais de curta duração) ou permanentes. Em ambos os casos, pode ser importante detectar essas alterações. Por exemplo, os resultados de um modelo para prever preços de casas podem se tornar tendenciosos se as taxas de hipoteca usadas para treinar o modelo diferirem das taxas de hipoteca atuais do mundo real. Com os recursos de detecção de desvio no Model Monitor, quando o SageMaker detecta um desvio além de um determinado limite, ele automaticamente gera métricas que você pode visualizar no SageMaker Studio e por meio de alertas do Amazon CloudWatch.

Em geral, medir o desvio somente durante a fase de treinamento e implantação pode não ser suficiente. É possível que, após a implantação do modelo, a distribuição dos dados que o modelo implantado vê (ou seja, os dados dinâmicos) seja diferente da distribuição de dados no conjunto de dados de treinamento. Essa mudança pode introduzir desvios em um modelo ao longo do tempo. A mudança na distribuição de dados dinâmicos pode ser temporária (por exemplo, devido a algum comportamento de curta duração, como as festas de fim de ano) ou permanente. Em ambos os casos, pode ser importante detectar essas mudanças e tomar medidas para reduzir o desvio, quando apropriado.

Para detectar essas mudanças, o SageMaker Clarify fornece funcionalidade para monitorar continuamente as métricas de desvio de um modelo implantado e gerar alertas automáticos se as métricas excederem um limite. Por exemplo, considere a métrica de desvio da DPPL. Especifique um intervalo permitido de valores A = (amin​, amax​), por exemplo, um intervalo de (-0,1, 0,1), ao qual a DPPL deve pertencer durante a implantação. Qualquer desvio desse intervalo deve gerar um alerta de desvio detectado. Com o SageMaker Clarify, você pode realizar essas verificações em intervalos regulares.

Por exemplo, você pode definir a frequência das verificações para 2 dias. Isso significa que o SageMaker Clarify calculará a métrica da DPPL nos dados coletados durante uma janela de 2 dias. Neste exemplo, Dwin são os dados que o modelo processou durante a última janela de 2 dias. Um alerta será emitido se o valor da DPPL bwin​ calculado em Dwin​ estiver fora de um intervalo permitido A. Essa abordagem para verificar se bwin está fora de A pode ser um pouco ruidosa. Dwin​ pode consistir em muito poucas amostras e pode não ser representativo da distribuição de dados dinâmicos. O pequeno tamanho da amostra significa que o valor do desvio bwin​ calculado sobre Dwin​ pode não ser uma estimativa muito robusta. Na verdade, valores muito altos (ou baixos) de bwin podem ser observados puramente por acaso. Para garantir que as conclusões tiradas dos dados Dwin observados sejam estatisticamente significativas, o SageMaker Clarify usa intervalos de confiança. Especificamente, ele usa o método de Intervalo de Bootstrap normal para construir um intervalo C=(cmin, cmax) de forma que o SageMaker Clarify tenha certeza de que o verdadeiro valor de polarização calculado sobre os dados dinâmicos completos está contido em C com alta probabilidade. Agora, se o intervalo de confiança C se sobrepuser ao intervalo permitido A, o SageMaker Clarify o interpretará como “é provável que o valor da métrica de polarização da distribuição de dados dinâmicos esteja dentro do intervalo permitido”. Se C e A forem separados, o SageMaker Clarify terá certeza de que a métrica de polarização não está em A e gera um alerta.

Caderno de exemplo do Model Monitor

O Amazon SageMaker Clarify fornece o seguinte caderno de exemplo que mostra como capturar dados de inferência para um endpoint em tempo real, criar uma linha de base para monitorar a evolução do desvio e inspecionar os resultados:

Foi verificado que esse caderno é executado somente no Amazon SageMaker Studio. Se você precisar de instruções sobre como abrir um caderno no Amazon SageMaker Studio, consulte Criar ou abrir um caderno do Amazon SageMaker Studio Classic. Caso seja solicitado que você escolha um kernel, escolha Python 3 (Ciência de dados). Os tópicos a seguir contêm os destaques das duas últimas etapas e contêm exemplos de código do caderno de exemplo.