Distancia de variación total () TVD - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Distancia de variación total () TVD

La métrica de sesgo de los datos de la distancia de variación total (TVD) es la mitad 1 de la norma L. TVDEs la mayor diferencia posible entre las distribuciones de probabilidad de los resultados de las etiquetas de las facetas a y d. La norma L1 es la distancia de Hamming, una métrica que se utiliza para comparar dos cadenas de datos binarios al determinar el número mínimo de sustituciones necesarias para cambiar una cadena por otra. Si las cadenas fueran copias una de la otra, determina el número de errores que se han producido al copiarlas. En el contexto de la detección de sesgos, TVD cuantifica cuántos resultados de la faceta a deberían cambiarse para que coincidan con los resultados de la faceta d.

La fórmula para la distancia de variación total es la siguiente:

        TVD= ½ * L 1 (P, Pa) d

Por ejemplo, suponga que tiene una distribución de resultados con tres categorías, yi = {y0, y1, y2} = {aceptado, en lista de espera, rechazado} en un escenario de admisiones universitarias multicategoría. Se TVD calculan las diferencias entre los recuentos de las facetas a y d de cada resultado. El resultado es el siguiente.

        L1(Pa, Pd) = |na(0) - nd(0)| + |na(1) - nd(1)| + |na(2) - nd(2)|

Donde:

  • na(i) es el número de los resultados de la i-ésima categoría en la faceta a: por ejemplo, na(0) es el número de aceptaciones de la faceta a.

  • nd(i) es el número de los resultados de la i-ésima categoría en la faceta d: por ejemplo, nd(2) es el número de rechazos de la faceta d.

    El rango de TVD valores para los resultados binarios, multicategoriales y continuos es [0, 1), donde:

    • Los valores cercanos a cero indican que las etiquetas están distribuidas de forma similar.

    • Los valores positivos indican que las distribuciones de las etiquetas son divergentes; cuanto más positivas, mayor es la divergencia.