Kolmogorov-Smirnov (KS) - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Kolmogorov-Smirnov (KS)

A métrica de desvio de Kolmogorov-Smirnov (KS) é igual à divergência máxima entre os rótulos nas distribuições das facetas a e d de um conjunto de dados. O teste KS de duas amostras implementado pela SageMaker Clarify complementa as outras medidas de desequilíbrio do rótulo ao encontrar o rótulo mais desequilibrado.

A fórmula para a métrica de Kolmogorov-Smirnov é a seguinte:

        KS = máx(|Pa(y) - Pd(y)|)

Por exemplo, suponha que um grupo de candidatos (faceta a) à faculdade seja rejeitado, na lista de espera ou aceito em 40%, 40%, 20%, respectivamente, e que essas taxas para outros candidatos (faceta d) sejam 20%, 10%, 70%. Então, o valor métrico de desvio de Kolmogorov-Smirnov é o seguinte:

KS = máximo (|0,4-0,2|, |0,4-0,1|, |0,2-0,7|) = 0,5

Isso nos diz que a divergência máxima entre as distribuições de facetas é 0,5 e ocorre nas taxas de aceitação. Há três termos na equação porque os rótulos são multiclasse de cardinalidade três.

O intervalo de valores de LP para resultados binários, multicategóricos e contínuos é [0, +1], onde:

  • Valores próximos de zero indicam que os rótulos foram distribuídos uniformemente entre as facetas em todas as categorias de resultados. Por exemplo, ambas as facetas que pediram um empréstimo obtiveram 50% das aceitações e 50% das rejeições.

  • Valores próximos a um indicam que os rótulos de uma categoria estavam todos em uma faceta. Por exemplo, a faceta a obteve 100% das aceitações e a faceta d não obteve nenhuma.

  • Valores intermitentes indicam graus relativos de desequilíbrio máximo do rótulo.