Lp-norm(LP) - Amazon SageMaker

Lp-norm(LP)

Lp-norm(LP)은 훈련 데이터세트에서 관찰된 레이블의 패싯 분포 사이의 p-norm 거리를 측정합니다. 이 지표는 음수가 아니므로 역 편향을 감지할 수 없습니다.

Lp-norm의 공식은 다음과 같습니다.

        Lp(Pa, Pd) = ( ∑y||Pa - Pd||p)1/p

여기서 점 x와 점 y 사이의 p-norm 거리는 다음과 같이 정의됩니다.

        Lp(x, y) = (|x1-y1|p + |x2-y2|p + … +|xn-yn|p)1/p

2-norm은 유클리드 norm입니다. 대학 입시 멀티카테고리 시나리오에서 yi = {y0, y1, y2} = {accepted, waitlisted, rejected}와 같이 세 가지 범주로 구성된 결과 분포가 있다고 가정해 보겠습니다. 패싯 a와 패싯 d의 결과 개수 차이에 대한 제곱합을 구합니다. 결과값의 유클리드 거리는 다음과 같이 계산됩니다.

        L2(Pa, Pd) = [(na(0) - nd(0))2 + (na(1) - nd(1))2 + (na(2) - nd(2))2]1/2

위치:

  • na(i)는 패싯 a의 i번째 범주형 결과의 수입니다.예를 들어 na(0)은 패싯 a의 승인 건수입니다.

  • nd(i)는 패싯 d의 i번째 범주형 결과의 수입니다.예를 들어 nd(2)는 패싯 d의 거부 건수입니다.

    바이너리, 멀티카테고리, 연속형 결과에 대한 LP 값의 범위는 [0, √2]입니다.이때,

    • 값이 0에 가까우면 여러 레이블의 분포가 서로 비슷함을 의미합니다.

    • 양수 값은 레이블 분포가 서로 발산된다는 것을 의미하며, 양수 값이 커질수록 발산의 정도도 커집니다.