기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
다음 섹션에서는 Amazon Fraud Detector로 작업할 때 발생할 수 있는 문제를 해결하는 데 도움이 됩니다.
훈련 데이터 문제 해결
이 섹션의 정보를 사용하여 모델을 훈련할 때 Amazon Fraud Detector 콘솔의 모델 훈련 진단 창에 표시될 수 있는 문제를 진단하고 해결할 수 있습니다.
모델 훈련 진단 창에 표시되는 문제는 다음과 같이 분류됩니다. 문제를 해결하기 위한 요구 사항은 문제의 범주에 따라 다릅니다.
-
오류 - 모델 훈련이 실패합니다. 모델이 성공적으로 훈련하려면 이러한 문제를 해결해야 합니다.
-
경고 -는 모델 훈련을 계속하게 하지만 훈련 프로세스에서 일부 변수가 제외될 수 있습니다. 데이터 세트의 품질을 개선하려면이 단원의 관련 지침을 확인하세요.
-
정보(Info) -는 모델 훈련에 영향을 주지 않으며 모든 변수가 훈련에 사용됩니다. 데이터 세트의 품질과 모델 성능을 더욱 개선하려면이 섹션의 관련 지침을 확인하는 것이 좋습니다.
주제
지정된 데이터 세트의 불안정한 사기 비율
문제 유형: 오류
설명
지정된 데이터의 사기율이 시간이 지나도 너무 불안정합니다. 사기 및 합법적인 이벤트는 시간이 지남에 따라 균일하게 샘플링되어야 합니다.
원인
이 오류는 데이터 세트의 사기 및 합법적인 이벤트가 균등하지 않게 배포되고 서로 다른 시간대에서 발생하는 경우에 발생합니다. Amazon Fraud Detector 모델 훈련은 EVENT_TIMESTAMP를 기반으로 데이터 세트를 샘플링하고 분할합니다. 예를 들어 데이터 세트가 지난 6개월에서 가져온 사기 이벤트로 구성되지만 합법적인 이벤트의 마지막 달만 포함된 경우 데이터 세트는 불안정한 것으로 간주됩니다. 불안정한 데이터 세트는 모델 성능 평가에 편향을 초래할 수 있습니다.
솔루션
동일한 시간대의 사기 및 합법적인 이벤트 데이터를 제공해야 하며 사기 비율은 시간이 지남에 따라 크게 변경되지 않습니다.
데이터 부족
-
문제 유형: 오류
설명
50개 미만의 행에는 사기 이벤트로 레이블이 지정됩니다. 사기 이벤트와 합법적인 이벤트가 모두 최소 수인 50개를 초과하는지 확인하고 모델을 재훈련합니다.
원인
이 오류는 데이터 세트에 모델 훈련에 필요한 것보다 사기로 레이블이 지정된 이벤트가 적은 경우에 발생합니다. Amazon Fraud Detector는 모델을 훈련하기 위해 최소 50개의 사기 이벤트가 필요합니다.
솔루션
데이터 세트에 최소 50개의 사기 이벤트가 포함되어 있는지 확인합니다. 필요한 경우 더 긴 기간을 포함시켜 이를 보장할 수 있습니다.
-
문제 유형: 오류
설명
50개 미만의 행에는 합법적인 이벤트로 레이블이 지정됩니다. 사기 및 합법적인 이벤트가 최소 $threshold 수를 초과하는지 확인하고 모델을 재훈련합니다.
원인
이 오류는 데이터 세트에 모델 훈련에 필요한 것보다 합법적인 것으로 레이블이 지정된 이벤트가 적은 경우에 발생합니다. Amazon Fraud Detector는 모델을 훈련하기 위해 최소 50개의 합법적인 이벤트가 필요합니다.
솔루션
데이터 세트에 최소 50개의 합법적인 이벤트가 포함되어 있는지 확인합니다. 필요한 경우 더 긴 기간을 포함시켜 이를 보장할 수 있습니다.
-
문제 유형: 오류
설명
사기와 관련된 고유 엔터티의 수가 100개 미만입니다. 성능을 개선하기 위해 사기 엔터티의 더 많은 예를 포함하는 것이 좋습니다.
원인
이 오류는 데이터 세트에 모델 훈련에 필요한 것보다 사기 이벤트가 있는 개체가 적은 경우에 발생합니다. TFI(Transaction Fraud Insights) 모델은 사기 이벤트가 있는 최소 100개의 엔터티가 사기 공간을 최대한 포함하도록 요구합니다. 소규모 엔터티 그룹에서 모든 사기 이벤트를 수행하는 경우 모델이 제대로 일반화되지 않을 수 있습니다.
솔루션
데이터 세트에 사기 이벤트가 있는 엔터티가 100개 이상 포함되어 있는지 확인합니다. 필요한 경우이 기간이 더 긴지 확인할 수 있습니다.
-
문제 유형: 오류
설명
합법적인와 연결된 고유 엔터티의 수가 100개 미만입니다. 성능을 개선하기 위해 합법적인 엔터티의 더 많은 예를 포함하는 것이 좋습니다.
원인
이 오류는 데이터 세트에 모델 훈련에 필요한 것보다 합법적인 이벤트가 있는 개체가 적은 경우에 발생합니다. TFI(Transaction Fraud Insights) 모델은 사기 공간을 최대한 활용하려면 합법적인 이벤트가 있는 최소 100개의 개체가 필요합니다. 소규모 엔터티 그룹에서 모든 합법적인 이벤트를 수행하는 경우 모델이 제대로 일반화되지 않을 수 있습니다.
솔루션
데이터 세트에 합법적인 이벤트가 있는 엔터티가 100개 이상 포함되어 있는지 확인합니다. 필요한 경우이 기간이 더 긴지 확인할 수 있습니다.
-
문제 유형: 오류
설명
데이터 세트에 100개 미만의 행이 있습니다. 전체 데이터 세트에 100개 이상의 행이 있고 50개 이상의 행에 사기로 레이블이 지정되어 있는지 확인합니다.
원인
이 오류는 데이터 세트에 레코드가 100개 미만인 경우에 발생합니다. Amazon Fraud Detector는 모델 훈련을 위해 데이터 세트에 있는 최소 100개의 이벤트(레코드)의 데이터가 필요합니다.
솔루션
데이터 세트에 100개가 넘는 이벤트의 데이터가 있는지 확인합니다.
EVENT_LABEL 값이 누락되었거나 다릅니다.
-
문제 유형: 오류
설명
EVENT_LABEL 열의 1% 이상이 null이거나 모델 구성에 정의된 값 이외의 값입니다
$label_values
. EVENT_LABEL 열에 누락된 값이 1% 미만이고 값이 모델 구성에 정의된 값인지 확인합니다$label_values
.원인
이 오류는 다음 이유 중 하나로 인해 발생합니다.
-
훈련 데이터가 포함된 CSV 파일의 레코드 중 1% 이상이 EVENT_LABEL 열에 누락된 값이 있습니다.
-
훈련 데이터가 포함된 CSV 파일의 레코드 중 1% 이상이 EVENT_LABEL 열에 이벤트 유형과 연결된 값과 다른 값이 있습니다.
온라인 사기 인사이트(OFI) 모델에서는 각 레코드의 EVENT_LABEL 열을 이벤트 유형과 연결된 레이블 중 하나로 채워야 합니다(또는에 매핑됨
CreateModelVersion
).솔루션
이 오류가 EVENT_LABEL 값 누락으로 인한 경우 해당 레코드에 적절한 레이블을 할당하거나 데이터 세트에서 해당 레코드를 삭제하는 것이 좋습니다. 일부 레코드의 레이블이에 속하지 않기 때문에이 오류가 발생하는 경우 EVENT_LABEL 열의 모든 값을 이벤트 유형의 레이블에 추가하고 모델 생성 시 사기 또는 합법적인(사기, 적법)에 매핑해야
label_values
합니다. -
-
문제 유형: 정보
설명
EVENT_LABEL 열에는 모델 구성에 정의된 값 이외의 null 값 또는 레이블 값이 포함되어 있습니다
$label_values
. 이러한 일관되지 않은 값은 훈련 전에 '사기 아님'으로 변환되었습니다.원인
다음 이유 중 하나로 인해이 정보를 얻을 수 있습니다.
-
훈련 데이터가 포함된 CSV 파일의 레코드 중 EVENT_LABEL 열에 누락된 값이 있는 레코드는 1% 미만입니다.
-
훈련 데이터가 포함된 CSV 파일의 레코드 중 1% 미만에는 EVENT_LABEL 열의 값이 이벤트 유형과 연결된 값과 다릅니다.
두 경우 모두 모델 훈련이 성공합니다. 그러나 레이블 값이 누락되거나 매핑되지 않은 이벤트의 레이블 값은 합법적인 것으로 변환됩니다. 이것이 문제라고 생각되면 아래 제공된 솔루션을 따르세요.
솔루션
데이터 세트에 EVENT_LABEL 값이 누락된 경우 데이터 세트에서 해당 레코드를 삭제하는 것이 좋습니다. 해당 EVENT_LABELS에 대해 제공된 값이 매핑되지 않은 경우 이러한 모든 값이 각 이벤트에 대해 사기 또는 합법적(사기, 적법)으로 매핑되어야 합니다.
-
EVENT_TIMESTAMP 값이 누락되었거나 잘못되었습니다.
-
문제 유형: 오류
설명
훈련 데이터 세트에는 허용되는 형식을 준수하지 않는 타임스탬프가 있는 EVENT_TIMESTAMP가 포함되어 있습니다. 형식이 허용되는 날짜/타임스탬프 형식 중 하나인지 확인합니다.
원인
이 오류는 EVENT_TIMESTAMP 열에 Amazon Fraud Detector에서 지원하는 타임스탬프 형식을 준수하지 않는 값이 포함된 경우 발생합니다.
솔루션
EVENT_TIMESTAMP 열에 제공된 값이 지원되는 타임스탬프 형식을 준수하는지 확인합니다. EVENT_TIMESTAMP 열에 누락된 값이 있는 경우 지원되는 타임스탬프 형식을 사용하여 값을 채우거나 , 또는와 같은 문자열을 입력하는 대신 이벤트를 완전히 삭제하는 것을 고려할 수 있습니다
none
null
missing
. -
문제 유형: 오류
훈련 데이터 세트에는 누락된 값이 있는 EVENT_TIMESTAMP가 포함되어 있습니다. 누락된 값이 없는지 확인합니다.
원인
이 오류는 데이터 세트의 EVENT_TIMESTAMP 열에 누락된 값이 있는 경우 발생합니다. Amazon Fraud Detector를 사용하려면 데이터 세트의 EVENT_TIMESTAMP 열에 값이 있어야 합니다.
솔루션
데이터 세트의 EVENT_TIMESTAMP 열에 값이 있고 해당 값이 지원되는 타임스탬프 형식을 준수하는지 확인합니다. EVENT_TIMESTAMP 열에 누락된 값이 있는 경우 지원되는 타임스탬프 형식을 사용하여 값을 채우거나 , 또는와 같은 문자열을 입력하는 대신 이벤트를 완전히 삭제하는 것을 고려할 수 있습니다
none
null
missing
.
수집되지 않은 데이터
문제 유형: 오류
설명
훈련에 대해 수집된 이벤트를 찾을 수 없습니다. 훈련 구성을 확인하세요.
원인
이 오류는 Amazon Fraud Detector에 저장된 이벤트 데이터가 있는 모델을 생성하지만 모델 훈련을 시작하기 전에 Amazon Fraud Detector로 데이터 세트를 가져오지 않은 경우에 발생합니다.
솔루션
Amazon Fraud Detector 콘솔에서 SendEvent
API 작업, CreateBatchImportJob
API 작업 또는 배치 가져오기 기능을 사용하여 먼저 이벤트 데이터를 가져온 다음 모델을 학습합니다. 자세한 내용은 저장된 이벤트 데이터 세트를 참조하세요.
참고
데이터 가져오기를 완료한 후 10분 후에 모델을 훈련하는 데 사용하는 것이 좋습니다.
Amazon Fraud Detector 콘솔을 사용하여 각 이벤트 유형에 대해 이미 저장된 이벤트 수를 확인할 수 있습니다. 자세한 내용은 저장된 이벤트의 지표 보기를 참조하세요.
변수 부족
문제 유형: 오류
설명
데이터세트에는 훈련에 적합한 변수가 2개 이상 포함되어야 합니다.
원인
이 오류는 데이터 세트에 모델 훈련에 적합한 변수가 2개 미만인 경우에 발생합니다. Amazon Fraud Detector는 모든 검증을 통과한 경우에만 모델 훈련에 적합한 변수를 고려합니다. 변수가 검증에 실패하면 모델 훈련에서 제외되고 모델 훈련 진단에 메시지가 표시됩니다.
솔루션
데이터 세트에 값으로 채워지고 모든 데이터 검증을 통과한 변수가 두 개 이상 있는지 확인합니다. 열 헤더(EVENT_TIMESTAMP, EVENT_ID, ENTITY_ID, EVENT_LABEL 등)를 제공한 이벤트 메타데이터 행은 변수로 간주되지 않습니다.
누락되거나 잘못된 변수 유형
문제 유형: 경고
설명
의 예상 데이터 형식은 NUMERIC$variable_name
입니다. 데이터 세트$variable_name
에서 검토 및 업데이트하고 모델을 재학습합니다.
원인
변수가 NUMERIC 변수로 정의되어 있지만 데이터 세트에 NUMERIC로 변환할 수 없는 값이 있는 경우이 경고가 표시됩니다. 따라서 해당 변수는 모델 훈련에서 제외됩니다.
솔루션
NUMERIC 변수로 유지하려면 제공한 값을 부동 소수점 숫자로 변환할 수 있는지 확인합니다. 변수에 누락된 값이 포함된 경우 , nonene
null
또는와 같은 문자열로 채우지 마세요missing
. 변수에 숫자가 아닌 값이 포함된 경우 CATEGORICAL 또는 FREE_FORM_TEXT 변수 유형으로 다시 생성합니다.
누락된 변수 값
문제 유형: 경고
설명
의 보다 큰 $threshold
값이 훈련 데이터 세트에서 누락$variable_name
되었습니다. 데이터 세트$variable_name
에서를 수정하고 성능을 개선하기 위해 재학습하는 것이 좋습니다.
원인
누락된 값이 너무 많아 지정된 변수가 삭제되는 경우이 경고가 표시됩니다. Amazon Fraud Detector는 변수의 누락된 값을 허용합니다. 그러나 한 변수에 누락된 값이 너무 많으면 모델에 큰 영향을 주지 않으며 해당 변수는 모델 훈련에서 삭제됩니다.
솔루션
먼저 누락된 값이 데이터 수집 및 준비의 실수로 인한 것이 아닌지 확인합니다. 실수인 경우 모델 훈련에서 삭제할 수 있습니다. 그러나 이러한 누락 값이 가치가 있다고 생각하고 여전히 해당 변수를 유지하려는 경우 모델 훈련과 실시간 추론 모두에서 누락된 값을 상수로 수동으로 채울 수 있습니다.
고유 변수 값 부족
문제 유형: 경고
설명
의 고유 값 수가 100보다 작$variable_name
습니다. 데이터 세트$variable_name
에서 검토 및 업데이트하고 모델을 재학습합니다.
원인
지정된 변수의 고유 값 수가 100보다 작으면이 경고가 표시됩니다. 임계값은 변수 유형에 따라 다릅니다. 고유한 값이 거의 없는 경우 데이터 세트가 해당 변수의 특성 공간을 덮을 만큼 일반적이지 않을 위험이 있습니다. 따라서 모델은 실시간 예측에서 잘 일반화되지 않을 수 있습니다.
솔루션
먼저 변수 분포가 실제 비즈니스 트래픽을 나타내는지 확인합니다. 그런 다음 first_name
및 last_name
별도로 full_customer_name
대신를 사용하는 등 카디널리티가 더 높은 보다 세분화된 변수를 채택하거나 카디널리티를 낮출 수 있도록 변수 유형을 CATEGORICAL로 변경할 수 있습니다.
잘못된 변수 표현식
-
문제 유형: 정보
설명
$email_variable_name
값의 50% 이상이 예상 정규식 http://emailregex.com 일치하지 않습니다. 데이터 세트$email_variable_name
에서를 수정하고 성능을 개선하기 위해 재학습하는 것이 좋습니다.원인
이 정보는 데이터 세트의 레코드가 50%를 초과하는 경우 일반 이메일 표현식을 준수하지 않아 검증에 실패하는 이메일 값이 있는 경우에 표시됩니다.
솔루션
정규식을 준수하도록 이메일 변수 값의 형식을 지정합니다. 누락된 이메일 값이 있는 경우 ,
none
null
또는와 같은 문자열로 채우는 대신 빈 상태로 두는 것이 좋습니다missing
. -
문제 유형: 정보
설명
$IP_variable_name
값의 50% 이상이 IPv4 또는 IPv6 주소 https://digitalfortress.tech/tricks/top-15-commonly-used-regex/ 정규식과 일치하지 않습니다. 데이터 세트$IP_variable_name
에서를 수정하고 성능을 개선하기 위해 재학습하는 것이 좋습니다.원인
이 정보는 데이터 세트의 레코드가 50%를 초과하여 IP 값이 정규 IP 표현식을 준수하지 않아 검증에 실패하는 경우에 표시됩니다.
솔루션
정규식을 준수하도록 IP 값의 형식을 지정합니다. 누락된 IP 값이 있는 경우 ,
none
null
또는와 같은 문자열로 채우는 대신 빈 상태로 두는 것이 좋습니다missing
. -
문제 유형: 정보
설명
$phone_variable_name
값의 50% 이상이 기본 전화 정규식 /$pattern/과 일치하지 않습니다. 데이터 세트$phone_variable_name
에서를 수정하고 성능을 개선하기 위해 재학습하는 것이 좋습니다.원인
이 정보는 데이터 세트의 레코드가 50%를 초과하는 경우 일반 전화번호 표현식을 준수하지 않아 검증에 실패하는 전화번호로 표시됩니다.
솔루션
정규식을 준수하도록 전화번호의 형식을 지정합니다. 전화번호가 누락된 경우 ,
none
null
또는와 같은 문자열로 채우지 말고 비워 두는 것이 좋습니다missing
.
고유 개체 부족
문제 유형: 정보
설명
고유 엔터티 수가 1500개 미만입니다. 성능을 개선하기 위해 더 많은 데이터를 포함하는 것이 좋습니다.
원인
이 정보는 데이터 세트의 고유 개체 수가 권장 숫자보다 적을 때 표시됩니다. 트랜잭션 사기 인사이트(TFI) 모델은 시계열 집계와 일반 트랜잭션 기능을 모두 사용하여 최상의 성능을 제공합니다. 데이터 세트에 고유한 개체가 너무 적은 경우 IP_ADDRESS, EMAIL_ADDRESS와 같은 대부분의 일반 데이터에 고유한 값이 없을 수 있습니다. 그런 다음이 데이터 세트가 해당 변수의 특성 공간을 충당할 만큼 일반적이지 않을 위험도 있습니다. 따라서 모델은 새로운 개체의 트랜잭션에 대해 잘 일반화되지 않을 수 있습니다.
솔루션
더 많은 개체를 포함합니다. 필요한 경우 훈련 데이터 시간 범위를 확장합니다.