Kolmogorov-Smirnov (KS) - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Kolmogorov-Smirnov (KS)

La métrique de biais de Kolmogorov-Smirnov (KS) est égale à la divergence maximale entre les étiquettes dans les distributions pour les facettes a et d d'un jeu de données. Le test KS à deux échantillons mis en œuvre par SageMaker Clarify complète les autres mesures du déséquilibre des étiquettes en identifiant l'étiquette la plus déséquilibrée.

La formule pour la métrique de Kolmogorov-Smirnov est la suivante :

        KS = max(|Pa(y) - Pd(y)|)

Par exemple, supposons qu'un groupe de candidats (facettea) à l'entrée à l'université sont rejetés, mis sur liste d'attente ou acceptés à hauteur de 40 %, 40 % et 20 % respectivement, et que ces taux pour les autres candidats (facette d) sont de 20 %, 10 % et 70 %. La formule pour la métrique de Kolmogorov-Smirnov est la suivante :

KS = max(|0,4-0,2|, |0,4-0,1|, |0,2-0,7|) = 0,5

Cela nous indique que la divergence maximale entre les distributions de facettes est de 0,5 et se produit dans les taux d'acceptation. Il y a trois termes dans l'équation parce que les étiquettes sont du type multiclasse avec une cardinalité de trois.

La plage de valeurs LP pour les résultats binaires, multicatégoriel et continus est de [0, +1], où :

  • Les valeurs proches de zéro indiquent une distribution uniforme des étiquettes entre les facettes dans toutes les catégories de résultats. Par exemple, les deux facettes demandant un prêt ont obtenu 50 % des acceptations et 50 % des rejets.

  • Les valeurs proches de un indiquent que toutes les étiquettes d'un résultat se trouvaient dans une seule facette. Par exemple, la facette a a obtenu 100 % des acceptations, tandis que la facette d n'en a obtenu aucune.

  • Les valeurs intermédiaires indiquent des degrés relatifs de déséquilibre maximal des étiquettes.