문제 해결 - Amazon Fraud Detector

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

문제 해결

다음 섹션은 Amazon Fraud Detector를 사용할 때 발생할 수 있는 문제를 해결하는 데 도움이 됩니다.

교육 데이터 문제 해결

이 섹션의 정보를 사용하면 모델을 학습할 때 Amazon Fraud Detector 콘솔의 모델 교육 진단 창에 표시될 수 있는 문제를 진단하고 해결하는 데 도움이 됩니다.

모델 교육 진단 창에 표시되는 문제는 다음과 같이 분류됩니다. 문제를 해결하기 위한 요구 사항은 문제 범주에 따라 다릅니다.

  • Error icon 오류 - 모델 학습이 실패합니다. 모델을 성공적으로 학습시키려면 이러한 문제를 해결해야 합니다.

  • Warning icon 경고 - 모델 학습이 계속되지만 일부 변수가 학습 프로세스에서 제외될 수 있습니다. 데이터셋의 품질을 개선하려면 이 섹션의 관련 지침을 확인하세요.

  • Information icon 정보 (Info) - 모델 학습에는 영향을 미치지 않으며 모든 변수가 학습에 사용됩니다. 데이터셋의 품질과 모델 성능을 더욱 개선하려면 이 섹션의 관련 지침을 확인하는 것이 좋습니다.

해당 데이터셋의 사기 발생률이 불안정합니다.

문제 유형: 오류

설명

주어진 데이터의 사기율이 시간이 지나면서 너무 불안정합니다. 시간이 지나면서 사기 행위와 합법적인 사건이 일관되게 샘플링되는지 확인하십시오.

원인

이 오류는 데이터세트의 사기 및 합법적인 이벤트가 고르지 않게 분산되어 있고 다른 시간대에서 가져온 경우 발생합니다. Amazon Fraud Detector 모델 교육은 EVENT_TIMESTAMP를 기반으로 데이터 세트를 샘플링하고 파티셔닝합니다. 예를 들어, 데이터 세트가 지난 6개월 동안 가져온 사기 이벤트로 구성되어 있지만 마지막 달의 합법적인 이벤트만 포함된 경우 데이터 세트는 불안정한 것으로 간주됩니다. 데이터세트가 불안정하면 모델 성능 평가에 편향이 생길 수 있습니다.

솔루션

부정 행위와 합법적 이벤트 데이터를 같은 시간대에 제공해야 합니다. 그러면 시간이 지나도 사기 발생률이 크게 변하지 않습니다.

데이터 부족

  1. 문제 유형: 오류

    설명

    사기 이벤트로 분류되는 행은 50개 미만입니다. 사기 이벤트와 합법적 이벤트 모두 최소 개수인 50개를 초과하는지 확인하고 모델을 다시 학습시키십시오.

    원인

    이 오류는 데이터세트에 모델 학습에 필요한 이벤트 수보다 부정 행위로 분류된 이벤트 수가 적은 경우 발생합니다. Amazon Fraud Detector에서는 모델을 학습시키기 위해 최소 50개의 사기 이벤트가 필요합니다.

    솔루션

    데이터 세트에 최소 50개의 사기 이벤트가 포함되어 있는지 확인하십시오. 필요한 경우 더 긴 기간을 적용하여 이를 보장할 수 있습니다.

  2. 문제 유형: 오류

    설명

    50개 미만의 행이 정상 이벤트로 분류됩니다. 사기 이벤트와 합법적 이벤트 모두 최소 개수인 $threshold 를 초과하는지 확인하고 모델을 재학습하십시오.

    원인

    이 오류는 데이터세트에 합법적인 것으로 표시된 이벤트 수가 모델 학습에 필요한 것보다 적은 경우 발생합니다. Amazon Fraud Detector에서는 모델을 학습시키기 위해 최소 50개의 합법적인 이벤트가 필요합니다.

    솔루션

    데이터세트에 최소 50개의 합법적인 이벤트가 포함되어 있는지 확인하십시오. 필요한 경우 더 긴 기간을 적용하여 이를 보장할 수 있습니다.

  3. 문제 유형: 오류

    설명

    사기와 관련된 고유 개체 수가 100개 미만입니다. 성과를 개선하려면 사기 조직의 예를 더 많이 포함하는 것을 고려해 보세요.

    원인

    이 오류는 데이터세트에 모델 학습에 필요한 개체 수보다 부정 이벤트가 발생한 개체 수가 적은 경우 발생합니다. 거래 사기 인사이트 (TFI) 모델에서는 사기 영역을 최대한 커버하기 위해 사기 사건이 발생한 개체가 100개 이상 있어야 합니다. 모든 사기 이벤트가 소규모 집단에 의해 수행되는 경우 모델이 제대로 일반화되지 않을 수 있습니다.

    솔루션

    데이터세트에 사기 이벤트가 있는 개체가 100개 이상 포함되어 있는지 확인하세요. 필요한 경우 더 긴 기간을 포함하도록 할 수 있습니다.

  4. 문제 유형: 오류

    설명

    합법적인 개체와 관련된 고유 개체의 수가 100개 미만입니다. 성과를 높이려면 합법적인 단체의 예를 더 많이 포함하는 것을 고려해 보세요.

    원인

    이 오류는 데이터세트에 모델 학습에 필요한 항목 수보다 적으면 정상 이벤트가 발생한 개체 수가 적은 경우에 발생합니다. 거래 사기 인사이트 (TFI) 모델에서는 사기 영역을 최대한 커버하기 위해 합법적인 이벤트가 있는 주체가 100개 이상 있어야 합니다. 모든 합법적인 이벤트가 소규모 집단에 의해 수행되면 모델이 제대로 일반화되지 않을 수 있습니다.

    솔루션

    데이터셋에 합법적인 이벤트가 있는 개체가 100개 이상 포함되어 있는지 확인하세요. 필요한 경우 더 긴 기간을 포함하도록 할 수 있습니다.

  5. 문제 유형: 오류

    설명

    데이터세트의 행이 100개 미만입니다. 전체 데이터세트에 100개 이상의 행이 있고 50개 이상의 행이 허위로 분류되어 있는지 확인하세요.

    원인

    이 오류는 데이터세트에 포함된 레코드가 100개 미만인 경우 발생합니다. Amazon Fraud Detector에서는 모델 교육을 위해 데이터 세트에 있는 최소 100개의 이벤트 (레코드) 데이터를 필요로 합니다.

    솔루션

    데이터세트에 100개가 넘는 이벤트의 데이터가 있는지 확인하십시오.

누락되었거나 다른 EVENT_LABEL 값

  1. 문제 유형: 오류

    설명

    EVENT_LABEL 열의 1% 이상이 null이거나 모델 구성에 정의된 값 이외의 값입니다. $label_values EVENT_LABEL 열의 누락된 값이 1% 미만이고 해당 값이 모델 구성에 정의된 값인지 확인하십시오. $label_values

    원인

    이 오류는 다음 원인 중 하나로 인해 발생합니다.

    • 훈련 데이터가 들어 있는 CSV 파일의 레코드 중 EVENT_LABEL 열에 누락된 값이 있는 레코드가 1% 를 넘습니다.

    • 훈련 데이터가 들어 있는 CSV 파일의 레코드 중 EVENT_LABEL 열에 이벤트 유형과 관련된 값과 다른 값이 있는 레코드가 1% 를 넘습니다.

    OFI (온라인 사기 인사이트) 모델에서는 각 레코드의 EVENT_LABEL 열을 이벤트 유형과 관련된 (또는 매핑된) 레이블 중 하나로 채워야 합니다. CreateModelVersion

    솔루션

    누락된 EVENT_LABEL 값으로 인해 이 오류가 발생한 경우 해당 레코드에 적절한 레이블을 할당하거나 데이터세트에서 해당 레코드를 삭제해 보세요. 일부 레코드의 레이블이 포함되지 않아 이 오류가 발생하는 경우label_values, EVENT_LABEL 열의 모든 값을 이벤트 유형의 레이블에 추가하고 모델 생성 시 사기 또는 합법적 (사기, 합법적) 에 매핑해야 합니다.

  2. 문제 유형: 정보

    설명

    EVENT_LABEL 열에는 모델 구성에 정의된 값 이외의 널 값 또는 레이블 값이 포함되어 있습니다. $label_values 이러한 일관성 없는 값은 학습 전에 '사기 아님'으로 변환되었습니다.

    원인

    다음과 같은 이유 중 하나로 인해 이 정보를 얻을 수 있습니다.

    • 훈련 데이터가 들어 있는 CSV 파일의 레코드 중 EVENT_LABEL 열에 누락된 값이 있는 레코드는 1% 미만입니다.

    • 훈련 데이터를 포함하는 CSV 파일의 레코드 중 EVENT_LABEL 열에 이벤트 유형과 관련된 값과 다른 값이 있는 레코드는 1% 미만입니다.

    두 경우 모두 모델 훈련이 성공합니다. 하지만 레이블 값이 누락되거나 매핑되지 않은 이벤트의 레이블 값은 올바른 것으로 변환됩니다. 이것이 문제라고 생각되면 아래 제공된 해결 방법을 따르십시오.

    솔루션

    데이터세트에 누락된 EVENT_LABEL 값이 있는 경우 데이터세트에서 해당 레코드를 삭제해 보세요. EVENT_LABELS에 제공된 값이 매핑되지 않은 경우 각 이벤트의 모든 값이 사기 또는 합법적 (사기, 합법적) 에 매핑되었는지 확인하세요.

누락되거나 잘못된 EVENT_TIMESTAMP 값

  1. 문제 유형: 오류

    설명

    훈련 데이터 세트에는 허용된 형식을 준수하지 않는 타임스탬프가 포함된 EVENT_TIMESTAMP가 포함되어 있습니다. 형식이 허용되는 날짜/타임스탬프 형식 중 하나인지 확인하십시오.

    원인

    이 오류는 EVENT_TIMESTAMP 열에 Amazon Fraud Detector에서 지원하는 타임스탬프 형식을 준수하지 않는 값이 포함된 경우 발생합니다.

    솔루션

    EVENT_TIMESTAMP 열에 제공된 값이 지원되는 타임스탬프 형식과 호환되는지 확인하십시오. EVENT_TIMESTAMP 열에 누락된 값이 있는 경우 지원되는 타임스탬프 형식을 사용하여 값을 채우거나, 또는 같은 문자열을 입력하는 대신 이벤트를 완전히 삭제하는 방법을 고려할 수 있습니다. none null missing

  2. 문제 유형: 오류

    훈련 데이터 세트에 누락된 값이 있는 EVENT_TIMESTAMP가 포함되어 있습니다. 누락된 값이 없는지 확인하세요.

    원인

    이 오류는 데이터셋의 EVENT_TIMESTAMP 열에 누락된 값이 있는 경우 발생합니다. Amazon Fraud Detector에서는 데이터세트의 EVENT_TIMESTAMP 열에 값이 있어야 합니다.

    솔루션

    데이터세트의 EVENT_TIMESTAMP 열에 값이 있고 해당 값이 지원되는 타임스탬프 형식을 준수하는지 확인하십시오. EVENT_TIMESTAMP 열에 누락된 값이 있는 경우 지원되는 타임스탬프 형식을 사용하여 값을 채우거나, 또는 같은 문자열을 입력하는 대신 이벤트를 완전히 삭제하는 방법을 고려할 수 있습니다. none null missing

데이터가 인제스트되지 않았습니다.

문제 유형: 오류

설명

교육에 필요한 인제스트된 이벤트를 찾을 수 없습니다. 교육 구성을 확인하세요.

원인

이 오류는 Amazon Fraud Detector에 저장된 이벤트 데이터로 모델을 생성하고 있지만 모델 교육을 시작하기 전에 Amazon Fraud Detector로 데이터 세트를 가져오지 않은 경우 발생합니다.

솔루션

Amazon Fraud Detector 콘솔의 CreateBatchImportJob API 작업, API 작업 또는 일괄 가져오기 기능을 사용하여 먼저 이벤트 데이터를 가져온 다음 모델을 학습시킵니다. SendEvent 자세한 내용은 저장된 이벤트 데이터세트를 참조하십시오.

참고

데이터 가져오기를 마친 후 모델 학습에 사용하기 전에 10분 정도 기다린 후 데이터를 사용하는 것이 좋습니다.

Amazon Fraud Detector 콘솔을 사용하여 각 이벤트 유형에 대해 이미 저장된 이벤트 수를 확인할 수 있습니다. 자세한 내용은 저장된 이벤트의 지표 보기를 참조하십시오.

변수가 충분하지 않음

문제 유형: 오류

설명

데이터셋에는 학습에 적합한 변수가 2개 이상 포함되어야 합니다.

원인

이 오류는 데이터셋에 모델 학습에 적합한 변수가 2개 미만인 경우 발생합니다. Amazon Fraud Detector는 모든 검증을 통과한 경우에만 모델 학습에 적합한 변수를 고려합니다. 변수가 검증에 실패하면 해당 변수는 모델 교육에서 제외되며 모델 교육 진단에서 메시지를 볼 수 있습니다.

솔루션

데이터셋에 값이 채워지고 모든 데이터 검증을 통과한 변수가 두 개 이상 있는지 확인하세요. 단, 열 헤더 (EVENT_TIMESTAMP, EVENT_ID, ENTITY_ID, EVENT_LABEL 등) 를 제공한 이벤트 메타데이터 행은 변수로 간주되지 않습니다.

변수 유형이 누락되었거나 올바르지 않습니다.

문제 유형: 경고

설명

의 예상 데이터 유형은 $variable_name 숫자입니다. 데이터세트를 검토 및 $variable_name 업데이트하고 모델을 재학습하세요.

원인

변수가 NUMERIC 변수로 정의되어 있지만 데이터세트에 NUMERIC으로 변환할 수 없는 값이 있는 경우 이 경고가 표시됩니다. 따라서 해당 변수는 모델 학습에서 제외됩니다.

솔루션

이 변수를 NUMERIC 변수로 유지하려면 제공하는 값을 부동 숫자로 변환할 수 있어야 합니다. 변수에 누락된 값이 있는 경우, 또는 같은 nonene 문자열로 채우지 마십시오. null missing 변수에 숫자가 아닌 값이 포함되어 있는 경우 변수를 CATEGORICAL 또는 FREE_FORM_TEXT 변수 유형으로 다시 생성하십시오.

변수 값이 누락되었습니다.

문제 유형: 경고

설명

$threshold $variable_name 값보다 큰 값이 훈련 데이터세트에서 누락되었습니다. 데이터세트를 수정하고 $variable_name 성능을 개선하려면 다시 훈련해 보세요.

원인

누락된 값이 너무 많아 지정된 변수가 삭제되는 경우 이 경고가 표시됩니다. Amazon Fraud Detector에서는 변수에 누락된 값을 입력할 수 있습니다. 하지만 한 변수에 결측값이 너무 많으면 모델에 크게 영향을 주지 않으므로 모델 교육 시 해당 변수가 삭제됩니다.

솔루션

먼저, 누락된 값이 데이터 수집 및 준비의 실수로 인한 것이 아닌지 확인하십시오. 실수라면 모델 학습에서 제외하는 방안을 고려해 볼 수 있습니다. 하지만 누락된 값이 가치가 있다고 생각하면서도 해당 변수를 유지하고 싶다면 모델 학습과 실시간 추론 모두에서 누락된 값을 상수로 수동으로 채울 수 있습니다.

고유 변수 값이 충분하지 않습니다.

문제 유형: 경고

설명

의 고유 값 수가 100개 $variable_name 미만입니다. 데이터세트를 검토 및 $variable_name 업데이트하고 모델을 재학습하세요.

원인

지정된 변수의 고유 값 수가 100개 미만인 경우 이 경고가 표시됩니다. 임계값은 변수 유형에 따라 다릅니다. 고유한 값이 거의 없는 경우 데이터셋이 해당 변수의 특징 공간을 포함할 만큼 충분히 일반적이지 않을 위험이 있습니다. 따라서 모델이 실시간 예측에 대해 잘 일반화되지 않을 수 있습니다.

솔루션

먼저 변수 분포가 실제 비즈니스 트래픽을 나타내는지 확인하십시오. 그런 다음 full_customer_name 대신 last_name 별도로 사용하는 것과 같이 카디널리티가 더 높은 미세 훈련된 변수를 채택하거나 변수 유형을 CATEGORICAL로 변경하여 카디널리티를 낮출 수 있습니다. first_name

잘못된 변수 표현식

  1. 문제 유형: 정보

    설명

    50% 이상의 $email_variable_name 값이 예상 정규 표현식 http://emailregex.com 과 일치하지 않습니다. 성능 개선을 위해 데이터세트를 $email_variable_name 수정하고 다시 학습시키는 것을 고려해 보십시오.

    원인

    이 정보는 데이터세트의 50% 이상의 레코드에 일반 이메일 표현식을 준수하지 않는 이메일 값이 있어 검증에 실패한 경우 표시됩니다.

    솔루션

    정규 표현식에 맞게 이메일 변수 값의 형식을 지정합니다. 누락된 이메일 값이 있는 경우 nonenull, 또는 같은 문자열로 채우지 말고 비워 두는 것이 좋습니다missing.

  2. 문제 유형: 정보

    설명

    50% 이상의 $IP_variable_name 값이 IPv4 또는 IPv6 주소의 정규 표현식과 일치하지 않습니다 https://digitalfortress.tech/tricks/top-15 - /. commonly-used-regex 성능 개선을 위해 데이터세트를 수정하고 다시 $IP_variable_name 학습시키는 것을 고려해 보세요.

    원인

    이 정보는 데이터세트의 50% 이상의 레코드가 IP 값이 정규 IP 표현식을 준수하지 않아 검증에 실패한 경우 표시됩니다.

    솔루션

    정규 표현식을 준수하도록 IP 값의 형식을 지정합니다. 누락된 IP 값이 있는 경우 nonenull, 또는 같은 문자열로 채우지 말고 비워 두는 것이 좋습니다missing.

  3. 문제 유형: 정보

    설명

    50% 가 넘는 $phone_variable_name 값이 기본 전화 정규 표현식 /$pattern/과 일치하지 않습니다. 성능 개선을 위해 데이터세트를 수정하고 $phone_variable_name 다시 학습시키는 것을 고려해 보세요.

    원인

    이 정보는 데이터세트에 있는 레코드의 50% 가 넘는 레코드의 전화번호가 일반 전화번호 표현식을 준수하지 않아 검증에 실패한 경우에 표시됩니다.

    솔루션

    전화번호의 형식을 정규 표현식에 맞게 지정합니다. 전화번호가 누락된 경우 nonenull, 또는 등의 문자열로 채우지 말고 비워 두는 것이 좋습니다missing.

고유 엔티티가 충분하지 않음

문제 유형: 정보

설명

고유 개체 수가 1500개 미만입니다. 성능을 개선하려면 더 많은 데이터를 포함하는 것을 고려해 보세요.

원인

이 정보는 데이터셋의 고유 항목 수가 권장 수보다 적은 경우 표시됩니다. 거래 사기 인사이트 (TFI) 모델은 시계열 집계와 일반 거래 기능을 모두 사용하여 최상의 성능을 제공합니다. 데이터세트에 포함된 고유 개체가 너무 적은 경우 IP_ADDRESS, EMAIL_ADDRESS와 같은 대부분의 일반 데이터에 고유한 값이 없을 수 있습니다. 그러면 이 데이터셋이 해당 변수의 특징 공간을 포괄할 만큼 충분히 일반적이지 않을 위험도 있습니다. 따라서 새로운 엔티티에서 발생하는 트랜잭션에 대해서는 모델이 제대로 일반화되지 않을 수 있습니다.

솔루션

더 많은 엔티티를 포함하세요. 필요한 경우 훈련 데이터 시간 범위를 확장하세요.