총 변형 거리(TVD) - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

총 변형 거리(TVD)

총 변형 거리 데이터 편향 지표(TVD)는 L1-norm의 절반입니다. TVD는 패싯 ad의 레이블 결과에 대한 확률 분포 간에 가능한 가장 큰 차이입니다. L1-norm은 한 문자열을 다른 문자열로 변경하는 데 필요한 최소 대체 문자 수를 결정하여 두 바이너리 데이터 문자열을 비교하는 데 사용되는 지표인 해밍(Hamming) 거리입니다. 문자열이 서로 복사되는 경우, 이는 복사 시 발생한 오류의 개수를 결정합니다. 편향 감지 컨텍스트에서 TVD는 패싯 d의 결과와 일치하도록 패싯 a의 결과를 변경해야 하는 횟수를 정량화합니다.

총 변동 거리를 구하는 공식은 다음과 같습니다.

        TVD = ½*L1(Pa, Pd)

예를 들어 대학 입시 멀티카테고리 시나리오에서 yi = {y0, y1, y2} = {accepted, waitlisted, rejected}의 세 가지 범주로 구성된 결과 분포가 있다고 가정해 보겠습니다. 각 결과에 대해 패싯 ad의 수 차이를 계산합니다TVD. 결과는 다음과 같습니다.

        L1(Pa, Pd) = |na(0) - nd(0)| + |na(1) - nd(1)| + |na(2) - nd(2)|

위치:

  • na(i)는 패싯 a의 i번째 범주형 결과의 수입니다.예를 들어 na(0)은 패싯 a의 승인 건수입니다.

  • nd(i)는 패싯 d의 i번째 범주형 결과의 수입니다.예를 들어 nd(2)는 패싯 d의 거부 건수입니다.

    이진, 다중 범주 및 연속 결과의 TVD 값 범위는 [0, 1)입니다. 여기서

    • 값이 0에 가까우면 여러 레이블의 분포가 서로 비슷함을 의미합니다.

    • 양수 값은 레이블 분포가 서로 발산된다는 것을 의미하며, 양수 값이 커질수록 발산의 정도도 커집니다.