Desvio de polarização para modelos em produção - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Desvio de polarização para modelos em produção

O monitoramento de viés do Amazon SageMaker Clarify ajuda cientistas de dados e engenheiros de ML a monitorar regularmente as previsões de viés. À medida que o modelo é monitorado, os clientes podem visualizar relatórios e gráficos exportáveis detalhando o viés no SageMaker Studio e configurar alertas na Amazon CloudWatch para receber notificações se um viés além de um determinado limite for detectado. O desvio pode ser introduzido ou exacerbado nos modelos de ML implantados quando os dados de treinamento são diferentes dos dados que o modelo vê durante a implantação (ou seja, os dados dinâmicos). Esses tipos de mudanças na distribuição de dados dinâmicos podem ser temporários (por exemplo, devido a alguns eventos reais de curta duração) ou permanentes. Em ambos os casos, pode ser importante detectar essas alterações. Por exemplo, os resultados de um modelo para prever preços de casas podem se tornar tendenciosos se as taxas de hipoteca usadas para treinar o modelo diferirem das taxas de hipoteca atuais do mundo real. Com os recursos de detecção de viés no Model Monitor, quando SageMaker detecta um viés além de um determinado limite, ele gera automaticamente métricas que você pode visualizar no SageMaker Studio e por meio de alertas da Amazon CloudWatch.

Em geral, medir o viés somente durante a train-and-deploy fase pode não ser suficiente. É possível que, após a implantação do modelo, a distribuição dos dados que o modelo implantado vê (ou seja, os dados dinâmicos) seja diferente da distribuição de dados no conjunto de dados de treinamento. Essa mudança pode introduzir desvios em um modelo ao longo do tempo. A mudança na distribuição de dados dinâmicos pode ser temporária (por exemplo, devido a algum comportamento de curta duração, como as festas de fim de ano) ou permanente. Em ambos os casos, pode ser importante detectar essas mudanças e tomar medidas para reduzir o desvio, quando apropriado.

Para detectar essas mudanças, o SageMaker Clarify fornece funcionalidade para monitorar continuamente as métricas de viés de um modelo implantado e gerar alertas automatizados se as métricas excederem um limite. Por exemplo, considere a métrica de DPPL viés. Especifique um intervalo permitido de valores A= (amin​, amax​), por exemplo, um intervalo de (-0,1, 0,1), que DPPL deve pertencer durante a implantação. Qualquer desvio desse intervalo deve gerar um alerta de desvio detectado. Com o SageMaker Clarify, você pode realizar essas verificações em intervalos regulares.

Por exemplo, você pode definir a frequência das verificações para 2 dias. Isso significa que o SageMaker Clarify calcula a DPPL métrica nos dados coletados durante uma janela de 2 dias. Neste exemplo, Dwin são os dados que o modelo processou durante a última janela de 2 dias. Um alerta é emitido se o DPPL valor b win​ calculado em D estiver win​ fora de um intervalo permitido A. Essa abordagem para verificar se b win está fora de A pode ser um pouco ruidosa. Dwin​ pode consistir em muito poucas amostras e pode não ser representativo da distribuição de dados dinâmicos. O pequeno tamanho da amostra significa que o valor do desvio bwin​ calculado sobre Dwin​ pode não ser uma estimativa muito robusta. Na verdade, valores muito altos (ou baixos) de bwin podem ser observados puramente por acaso. Para garantir que as conclusões tiradas dos dados D observados win sejam estatisticamente significativas, o SageMaker Clarify faz uso de intervalos de confiança. Especificamente, ele usa o método Normal Bootstrap Interval para construir um intervalo C= (cmin, cmax) de forma que SageMaker Clarify tenha certeza de que o verdadeiro valor de polarização calculado sobre os dados ativos completos está contido em C com alta probabilidade. Agora, se o intervalo de confiança C se sobrepor ao intervalo permitido A, SageMaker Clarify o interpreta como “é provável que o valor da métrica de viés da distribuição de dados ao vivo esteja dentro do intervalo permitido”. Se C e A forem disjuntos, o SageMaker Clarify tem certeza de que a métrica de viés não está em A e gera um alerta.

Caderno de exemplo do Model Monitor

O Amazon SageMaker Clarify fornece o seguinte exemplo de caderno que mostra como capturar dados de inferência para um endpoint em tempo real, criar uma linha de base para monitorar a evolução do preconceito e inspecionar os resultados:

Este notebook foi verificado para ser executado somente no Amazon SageMaker Studio. Se você precisar de instruções sobre como abrir um notebook no Amazon SageMaker Studio, consulteCrie ou abra um notebook Amazon SageMaker Studio Classic. Caso seja solicitado que você escolha um kernel, escolha Python 3 (Data Science). Os tópicos a seguir contêm os destaques das duas últimas etapas e contêm exemplos de código do caderno de exemplo.