기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
AWS Clean Rooms ML 모델 평가 지표
Clean Rooms ML은 재현율 및 관련성 점수를 계산하여 모델의 성능을 판단합니다. 리콜은 유사 데이터와 학습 데이터 간의 유사성을 비교합니다. 관련성 점수는 모델의 성과가 좋은지 여부가 아니라 대상 고객의 규모를 결정하는 데 사용됩니다.
리콜은 유사 세그먼트가 교육 데이터와 얼마나 유사한지를 편견 없이 측정하는 척도입니다. 리콜은 교육 데이터 샘플에서 오디언스 생성 작업을 통해 시드 오디언스에 포함된 사용자 중 가장 유사한 사용자 비율 (기본값은 가장 비슷한 20%) 입니다. 값의 범위는 0~1입니다. 값이 클수록 시청자층이 더 많음을 나타냅니다. 리콜 값이 최대 빈 백분율과 거의 같으면 대상 모델이 무작위 선택과 동일하다는 것을 나타냅니다.
Clean Rooms ML은 모델을 구축할 때 트루 네거티브 사용자를 정확히 분류하지 않았기 때문에 정확성, 정밀도, F1 점수보다 더 나은 평가 지표라고 생각합니다.
세그먼트 수준 관련성 점수는 -1(가장 유사하지 않음)에서 1(가장 유사함) 사이의 값을 갖는 유사성 척도입니다. Clean Rooms ML은 다양한 세그먼트 크기에 대한 일련의 관련성 점수를 계산하여 데이터에 가장 적합한 세그먼트 크기를 결정하는 데 도움을 줍니다. 관련성 점수는 세그먼트 크기가 커질수록 일시적으로 감소하므로 세그먼트 크기가 커질수록 시드 데이터와 유사하지 않을 수 있습니다. 세그먼트 수준 관련성 점수가 0에 도달하면 모델은 유사 세그먼트의 모든 사용자가 시드 데이터와 동일한 분포에 속한다고 예측합니다. 출력 크기를 늘리면 시드 데이터와 동일한 분포에 속하지 않는 유사 세그먼트에 사용자가 포함될 가능성이 높습니다.
관련성 점수는 단일 캠페인 내에서 정규화되므로 여러 캠페인을 비교하는 데 사용해서는 안 됩니다. 관련성 점수를 비즈니스 성과에 대한 단일 출처 증거로 사용해서는 안 됩니다. 이는 관련성 외에도 인벤토리 품질, 인벤토리 유형, 광고 시기와 같은 여러 복잡한 요인의 영향을 받기 때문입니다.
관련성 점수는 시드의 품질을 판단하는 데 사용해서는 안 되며, 높이거나 낮출 수 있는지 여부를 판단하는 데 사용해야 합니다. 다음 예제를 살펴보세요.
-
전부 플러스인 점수 - 이는 유사 세그먼트에 포함된 것보다 유사한 것으로 예측된 출력 사용자가 더 많다는 것을 나타냅니다. 이는 지난 한 달 동안 치약을 구매한 모든 사람과 같이 대규모 시장의 일부 종자 데이터에서 흔히 볼 수 있습니다. 지난 한 달 동안 치약을 두 번 이상 구매한 모든 사람과 같이 소규모 시드 데이터를 살펴보는 것이 좋습니다.
-
원하는 유사 세그먼트 크기에 대해 모두 부정적 점수 또는 부정적 점수 — 이는 Clean Rooms ML이 원하는 유사 세그먼트 규모에서 유사한 사용자가 충분하지 않을 것으로 예측한다는 것을 나타냅니다. 이는 시드 데이터가 너무 구체적이거나 시장 규모가 너무 작기 때문일 수 있습니다. 시드 데이터에 적용할 필터 수를 줄이거나 시장을 확대하는 것이 좋습니다. 예를 들어 원래 시드 데이터가 유모차와 카시트를 구매한 고객이었다면 유아용품을 여러 개 구매한 고객으로 시장을 확대할 수 있습니다.
훈련 데이터 공급자는 관련성 점수의 노출 여부와 관련성 점수를 계산하는 버킷 빈을 결정합니다.