총 변형 거리(TVD)

총 변형 거리 데이터 편향 지표(TVD)는 L₁-norm의 절반입니다. TVD는 패싯 a와 d의 레이블 결과에 대한 확률 분포 간에 가능한 가장 큰 차이입니다. L₁-norm은 한 문자열을 다른 문자열로 변경하는 데 필요한 최소 대체 문자 수를 결정하여 두 바이너리 데이터 문자열을 비교하는 데 사용되는 지표인 해밍(Hamming) 거리입니다. 문자열이 서로 복사되는 경우, 이는 복사 시 발생한 오류의 개수를 결정합니다. 편향 감지 컨텍스트에서 TVD는 패싯 d의 결과와 일치하도록 패싯 a의 결과를 변경해야 하는 횟수를 정량화합니다.

총 변동 거리를 구하는 공식은 다음과 같습니다.

TVD = ½_*L₁(P_a, P_d)

예를 들어 대학 입시 멀티카테고리 시나리오에서 y_i = {y₀, y₁, y₂} = {accepted, waitlisted, rejected}의 세 가지 범주로 구성된 결과 분포가 있다고 가정해 보겠습니다. 각 결과에 대해 패싯 a와 d의 수 차이를 계산합니다TVD. 결과는 다음과 같습니다.

위치:

n_a⁽ⁱ⁾는 패싯 a의 i번째 범주형 결과의 수입니다.예를 들어 n_a⁽⁰⁾은 패싯 a의 승인 건수입니다.
n_d⁽ⁱ⁾는 패싯 d의 i번째 범주형 결과의 수입니다.예를 들어 n_d⁽²⁾는 패싯 d의 거부 건수입니다.

이진, 다중 범주 및 연속 결과의 TVD 값 범위는 [0, 1)입니다. 여기서
- 값이 0에 가까우면 여러 레이블의 분포가 서로 비슷함을 의미합니다.
- 양수 값은 레이블 분포가 서로 발산된다는 것을 의미하며, 양수 값이 커질수록 발산의 정도도 커집니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

Lp-norm(LP)

콜모고로프-스미르노프(KS)