Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Distanza di variazione totale () TVD
La metrica di polarizzazione dei dati sulla distanza di variazione totale () TVD è la metà della norma L. 1 TVDÈ la più grande differenza possibile tra le distribuzioni di probabilità per i risultati delle etichette delle sfaccettature a e d. La norma L1 è la distanza di Hamming, una metrica utilizzata per confrontare due stringhe di dati binari determinando il numero minimo di sostituzioni necessarie per cambiare una stringa in un'altra. Se le stringhe dovessero essere copie l'una dell'altra, determina il numero di errori che si sono verificati durante la copia. Nel contesto del rilevamento delle distorsioni, TVD quantifica quanti risultati della sfaccettatura a dovrebbero essere modificati per corrispondere ai risultati della sfaccettatura d.
La formula per la distanza di variazione totale è la seguente:
TVD= ½ * L (P, P) 1 a d
Ad esempio, supponiamo di avere una distribuzione degli esiti con tre categorie, ad esempio yi = {y0, y1, y2} = {accettato, in lista d'attesa, rifiutato} in uno scenario multicategoria di ammissioni all'università. Si TVD calcolano le differenze tra i conteggi delle sfaccettature a e d per ogni risultato. Il risultato è illustrato di seguito.
L1(Pa, Pd) = |na(0) - nd(0)| + |na(1) - nd(1)| + |na(2) - nd(2)|
Dove:
-
na(i) è il numero dei risultati della nesima categoria nel facet a: ad esempio na(0) è il numero di accettazioni del facet a.
-
nd(i) è il numero dei risultati della nesima categoria nel facet d: ad esempio nd(2) è il numero di rifiuti del facet d.
L'intervallo di TVD valori per i risultati binari, multicategorie e continui è [0, 1), dove:
-
I valori vicini allo zero indicano che le etichette sono distribuite in modo simile.
-
I valori positivi indicano che le distribuzioni delle etichette divergono, più sono positivi e maggiore è la divergenza.
-