모델 변수 중요도 - Amazon Fraud Detector

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

모델 변수 중요도

모델 변수 중요도는 모델 버전 내에서 모델 변수의 순위를 매기는 Amazon Fraud Detector의 기능입니다. 각 모델 변수에는 모델의 전체 성능에 대한 상대적 중요도를 기반으로 한 값이 제공됩니다. 값이 가장 높은 모델 변수는 해당 모델 버전의 데이터셋에 있는 다른 모델 변수보다 모델에 더 중요하며 기본적으로 상단에 나열됩니다. 마찬가지로, 값이 가장 낮은 모델 변수는 기본적으로 맨 아래에 나열되며 다른 모델 변수에 비해 중요도가 가장 낮습니다. 모델 변수 중요도 값을 사용하면 어떤 입력이 모델 성능을 좌우하는지 파악할 수 있습니다.

Amazon Fraud Detector 콘솔에서 또는 DescribeModelVersionAPI를 사용하여 학습된 모델 버전의 모델 변수 중요도 값을 볼 수 있습니다.

모델 변수 중요도는 모델 버전을 학습하는 데 사용되는 각 변수에 대해 다음과 같은 값 세트를 제공합니다.

  • 변수 유형: 변수 유형 (예: IP 주소 또는 이메일). 자세히 알아보려면 변수 유형의 내용을 참조하세요. 계정 인수 인사이트 (ATI) 모델의 경우 Amazon Fraud Detector는 원시 및 집계 변수 유형 모두에 변수 중요도 값을 제공합니다. 원시 변수 유형은 사용자가 제공하는 변수에 할당됩니다. 집계 변수 유형은 Amazon Fraud Detector가 집계된 중요도 값을 계산하기 위해 결합한 원시 변수 세트에 할당됩니다.

  • 변수 이름: 모델 버전을 학습시키는 데 사용된 이벤트 변수의 이름 (예:, ip_addressemail_address,are_creadentials_valid). 집계 변수 유형의 경우 집계된 변수 중요도 값을 계산하는 데 사용된 모든 변수의 이름이 나열됩니다.

  • 변수 중요도 값: 모델 성능에 대한 원시 또는 집계 변수의 상대적 중요도를 나타내는 숫자입니다. 일반적인 범위: 0~10

Amazon Fraud Detector 콘솔에서는 온라인 사기 인사이트 (OFI) 또는 거래 사기 인사이트 (TFI) 모델에 대한 모델 변수 중요도 값이 다음과 같이 표시됩니다. ATI (계정 탈취 인사이트) 모델은 원시 변수의 중요도 값 외에도 집계된 변수 중요도 값을 제공합니다. 시각적 차트를 사용하면 가장 순위가 높은 변수의 중요도 값을 참조할 수 있는 세로 점선을 통해 변수 간의 상대적 중요도를 쉽게 확인할 수 있습니다.

모델 변수 중요도 차트.

Amazon Fraud Detector는 추가 비용 없이 모든 Fraud Detector 모델 버전에 대해 가변 중요도 값을 생성합니다.

중요

2021년 7월 9일 이전에 생성된 모델 버전에는 가변 중요도 값이 없습니다. 새 버전의 모델을 학습시켜 모델 변수 중요도 값을 생성해야 합니다.

모델 변수 중요도 값 사용

모델 변수 중요도 값을 사용하여 모델 성능을 높이거나 낮추는 요인과 가장 큰 기여를 하는 변수를 파악할 수 있습니다. 그런 다음 모델을 수정하여 전반적인 성능을 개선하세요.

좀 더 구체적으로 설명하자면, 모델 성능을 개선하려면 변수 중요도 값을 도메인 지식과 비교하여 검토하고 학습 데이터에서 문제를 디버깅하십시오. 예를 들어, 계정 ID가 모델에 대한 입력으로 사용되었고 모델이 맨 위에 나열되어 있다면 변수 중요도 값을 살펴보세요. 변수 중요도 값이 나머지 값보다 훨씬 높으면 모델이 특정 사기 패턴에 과도하게 적합할 수 있습니다 (예: 모든 사기 이벤트가 동일한 계정 ID에서 발생한 경우). 그러나 변수가 사기 레이블에 따라 달라지는 경우 레이블 유출이 발생할 수도 있습니다. 도메인 지식을 기반으로 한 분석 결과에 따라 변수를 제거하고 더 다양한 데이터셋으로 훈련시키거나 모델을 그대로 유지하는 것이 좋습니다.

마찬가지로, 가장 늦게 순위가 매겨진 변수를 살펴보세요. 변수 중요도 값이 나머지 값보다 현저히 낮으면 이 모델 변수는 모델 훈련에 그다지 중요하지 않을 수 있습니다. 변수를 제거하여 더 간단한 모델 버전을 학습시키는 것을 고려해 볼 수 있습니다. 모델에 변수가 거의 없는 경우 (예: 변수가 두 개뿐인 경우) Amazon Fraud Detector는 여전히 변수 중요도 값을 제공하고 변수의 순위를 지정합니다. 하지만 이 경우 통찰력이 제한될 수 있습니다.

중요
  1. 모델 변수 중요도 차트에서 누락된 변수를 발견했다면 다음 이유 중 하나 때문일 수 있습니다. 데이터셋의 변수를 수정하고 모델을 다시 훈련해 보세요.

    • 훈련 데이터셋에 있는 변수의 고유 값 개수는 100개 미만입니다.

    • 훈련 데이터 세트에서 누락된 변수 값이 0.9% 를 넘습니다.

  2. 모델의 입력 변수를 조정할 때마다 새 모델 버전을 학습시켜야 합니다.

모델 변수 중요도 값 평가

모델 변수 중요도 값을 평가할 때는 다음 사항을 고려하는 것이 좋습니다.

  • 변수 중요도 값은 항상 도메인 지식과 조합하여 평가해야 합니다.

  • 모델 버전 내 다른 변수의 변수 중요도 값과 비교하여 변수의 변수 중요도 값을 검토하십시오. 단일 변수에 대한 변수 중요도 값을 독립적으로 고려하지 마십시오.

  • 동일한 모델 버전 내 변수의 변수 중요도 값을 비교하십시오. 모델 버전에 있는 변수의 변수 중요도 값이 다른 모델 버전의 동일한 변수 값과 다를 수 있으므로 모델 버전 간에 동일한 변수의 변수 중요도 값을 비교하지 마십시오. 동일한 변수와 데이터셋을 사용하여 서로 다른 모델 버전을 학습시키는 경우 반드시 동일한 변수 중요도 값이 생성되는 것은 아닙니다.

모델 변수 중요도 순위 보기

모델 교육이 완료되면 Amazon Fraud Detector 콘솔에서 또는 DescribeModelVersionAPI를 사용하여 학습된 모델 버전의 모델 변수 중요도 순위를 확인할 수 있습니다.

콘솔을 사용하여 모델 변수 중요도 순위를 보려면
  1. AWS콘솔을 열고 계정에 로그인합니다. Amazon Fraud Detector로 이동합니다.

  2. 왼쪽 탐색 창에서 모델을 선택합니다.

  3. 모델을 선택한 다음 모델 버전을 선택합니다.

  4. 개요 탭이 선택되어 있는지 확인하십시오.

  5. 아래로 스크롤하여 모델 변수 중요도 창을 확인합니다.

모델 변수 중요도 값 계산 방법 이해

Amazon Fraud Detector는 각 모델 버전 교육을 완료하면 모델 변수 중요도 값과 모델의 성능 지표를 자동으로 생성합니다. 이를 위해 Amazon Fraud Detector는 섀플리 부가적 설명 (SHAP) 을 사용합니다. SHAP는 기본적으로 모든 모델 변수의 가능한 모든 조합을 고려한 후의 모델 변수의 평균 예상 기여도입니다.

SHAP는 먼저 이벤트 예측을 위해 각 모델 변수의 기여도를 할당합니다. 그런 다음 이러한 예측을 집계하여 모델 수준에서 변수 순위를 생성합니다. 각 모델 변수의 예측 기여도를 지정하기 위해 SHAP는 가능한 모든 변수 조합 간의 모델 출력 차이를 고려합니다. SHAP는 특정 변수 세트를 포함하거나 제거하여 모델 결과를 생성할 수 있는 모든 가능성을 포함함으로써 각 모델 변수의 중요도에 정확하게 접근할 수 있습니다. 이는 모델 변수가 서로 높은 상관관계를 가질 때 특히 중요합니다.

대부분의 경우 ML 모델에서는 변수를 제거할 수 없습니다. 대신 모델에서 제거되거나 누락된 변수를 하나 이상의 기준선에 있는 해당 변수 값으로 바꿀 수 있습니다 (예: 사기 행위가 아닌 이벤트). 적절한 기준 인스턴스를 선택하는 것은 어려울 수 있지만 Amazon Fraud Detector에서는 이 기준을 인구 평균으로 설정하여 쉽게 선택할 수 있습니다.