Norma Lp (LP)
La norma Lp (LP) mide la distancia de la norma p entre las distribuciones de facetas de las etiquetas observadas en un conjunto de datos de entrenamiento. Esta métrica es no negativa y, por lo tanto, no puede detectar el sesgo inverso.
La fórmula de la norma Lp es la siguiente:
Lp(Pa, Pd) = ( ∑y||Pa - Pd||p)1/p
Donde la distancia de la norma p entre los puntos x e y se define de la siguiente manera:
Lp(x, y) = (|x1-y1|p + |x2-y2|p + … +|xn-yn|p)1/p
La norma 2 es la norma euclidiana. Suponga que tiene una distribución de resultados con tres categorías, por ejemplo, yi = {y0, y1, y2} = {aceptado, en lista de espera, rechazado} en un escenario de admisiones universitarias multicategoría. Se calcula la suma de los cuadrados de las diferencias entre los recuentos de resultados de las facetas a y d. La distancia euclidiana resultante se calcula de la siguiente manera:
L2(Pa, Pd) = [(na(0) - nd(0))2 + (na(1) - nd(1))2 + (na(2) - nd(2))2]1/2
Donde:
-
na(i) es el número de los resultados de la i-ésima categoría en la faceta a: por ejemplo, na(0) es el número de aceptaciones de la faceta a.
-
nd(i) es el número de los resultados de la i-ésima categoría en la faceta d: por ejemplo, nd(2) es el número de rechazos de la faceta d.
El rango de valores LP para los resultados binarios, multicategoría y continuos es [0, √2), donde:
-
Los valores cercanos a cero indican que las etiquetas están distribuidas de forma similar.
-
Los valores positivos indican que las distribuciones de las etiquetas son divergentes; cuanto más positivas, mayor es la divergencia.
-