Distance de variation totale (TVD) - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Distance de variation totale (TVD)

La métrique de biais des données de distance de variation totale (TVD) est la moitié de la 1 norme L. TVDIl s'agit de la plus grande différence possible entre les distributions de probabilité pour les résultats d'étiquette des facettes a et d. La norme L1 est la distance de Hamming, une métrique utilisée pour comparer deux chaînes de données binaires en déterminant le nombre minimum de substitutions nécessaires pour qu'une chaîne en devienne une autre. Si les chaînes devaient être des copies les unes des autres, la métrique détermine le nombre d'erreurs qui se sont produites lors de la copie. Dans le contexte de la détection des biais, TVD quantifie le nombre de résultats de la facette a qui devraient être modifiés pour correspondre aux résultats de la facette d.

La formule pour la distance de variation totale est la suivante :

        TVD= ½ * L 1 (Pa, Pd)

Supposons par exemple que vous avez une distribution de résultats avec trois catégories, yi = {y0, y1, y2} = {accepté, sur liste d'attente, rejeté} dans un scénario multicatégoriel d'admission à l'université. Vous devez calculer les différences entre les nombres de facettes a et d pour chaque résultatTVD. Le résultat est le suivant :

        L1(Pa, Pd) = |na(0) - nd(0)| + |na(1) - nd(1)| + |na(2) - nd(2)|

Où :

  • na(i) est le nombre des résultats de la énième catégorie dans la facette a : par exemple na(0) est le nombre d'acceptations de la facette a.

  • nd(i) est le nombre des résultats de la énième catégorie dans la facette d : par exemple nd(2) est le nombre de rejets de la facette d.

    La plage de TVD valeurs pour les résultats binaires, multicatégoriels et continus est [0, 1), où :

    • Les valeurs proches de zéro signifient que les distributions d'étiquettes sont similaires.

    • Les valeurs positives indiquent une divergence dans les distributions d'étiquettes, d'autant plus importante que le nombre de valeurs positives est élevé.