Kolmogorov-Smirnov (KS) - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Kolmogorov-Smirnov (KS)

La metrica di distorsione di Kolmogorov-Smirnov (KS) è uguale alla divergenza massima tra le etichette nelle distribuzioni per i facet a e d di un set di dati. Il test KS a due campioni implementato da SageMaker Clarify integra le altre misure di squilibrio delle etichette individuando l'etichetta più squilibrata.

La formula per la metrica di Kolmogorov-Smirnov è la seguente:

        KS = max(|Pa(y) - Pd(y)|)

Ad esempio, supponiamo che un gruppo di candidati (facet a) all'università venga respinto, inserito in lista d'attesa o accettato rispettivamente al 40%, 40%, 20% e che tali tassi per gli altri candidati (facet d) siano del 20%, 10%, 70%. Quindi, il valore metrico di distorsione di Kolmogorov-Smirnov è il seguente:

KS = max(|0,4-0,2|, |0,4-0,1|, |0,2-0,7|) = 0,5

Questo ci dice che la divergenza massima tra le distribuzioni dei facet è 0,5 e si verifica nei tassi di accettazione. Ci sono tre termini nell'equazione perché le etichette sono multiclasse di cardinalità tre.

L'intervallo di valori LP per esiti binari, multicategoria e continui è [0, +1], dove:

  • I valori vicini allo zero indicano che le etichette si sono distribuite uniformemente tra i facet in tutte le categorie di esiti. Ad esempio, entrambe le parti che hanno richiesto un prestito hanno ottenuto il 50% delle accettazioni e il 50% dei rifiuti.

  • I valori vicini a uno indicano che le etichette di un risultato erano tutte riunite in un unico facet. Ad esempio, il facet a ha ottenuto il 100% delle accettazioni e il facet d non ne ha ottenuta nessuna.

  • I valori intermittenti indicano gradi relativi di massimo squilibrio delle etichette.