CSV 파일 생성 - Amazon Fraud Detector

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

CSV 파일 생성

Amazon Fraud Detector를 사용하려면 CSV 파일의 첫 번째 행에 열 헤더가 있어야 합니다. CSV 파일의 열 헤더는 이벤트 유형에 정의된 변수에 매핑되어야 합니다. 예제 데이터셋은 을 참조하십시오.예제 데이터세트 가져오기 및 업로드

Online Fraud Insights 모델에는 최소 2개의 변수와 최대 100개의 변수가 있는 학습 데이터세트가 필요합니다. 이벤트 변수 외에도 훈련 데이터셋에는 다음과 같은 헤더가 포함되어야 합니다.

  • EVENT_타임스탬프 - 이벤트가 발생한 시점을 정의합니다.

  • EVENT_LABEL - 이벤트가 시기성인지 합법적인지를 분류합니다. 열의 값은 이벤트 유형에 정의된 값과 일치해야 합니다.

다음 샘플 CSV 데이터는 온라인 판매자의 과거 등록 이벤트를 나타냅니다.

EVENT_TIMESTAMP,EVENT_LABEL,ip_address,email_address 4/10/2019 11:05,fraud,209.146.137.48,fake_burtonlinda@example.net 12/20/2018 20:04,legit,203.0.112.189,fake_davidbutler@example.org 3/14/2019 10:56,legit,169.255.33.54,fake_shelby76@example.net 1/3/2019 8:38,legit,192.119.44.26,fake_curtis40@example.com 9/25/2019 3:12,legit,192.169.85.29,fake_rmiranda@example.org
참고

CSV 데이터 파일에는 데이터의 일부로 큰따옴표와 쉼표가 포함될 수 있습니다.

해당 이벤트 유형의 단순화된 버전이 아래에 나와 있습니다. 이벤트 변수는 CSV 파일의 헤더에 해당하고 값은 레이블 목록의 값에EVENT_LABEL 해당합니다.

( name = 'sample_registration', eventVariables = ['ip_address', 'email_address'], labels = ['legit', 'fraud'], entityTypes = ['sample_customer'] )

이벤트 타임스탬프 형식

이벤트 타임스탬프가 필수 형식인지 확인하십시오. 모델 구축 프로세스의 일부로서 Online Fraud Insights 모델 유형은 이벤트 타임스탬프를 기반으로 데이터를 정렬하고 학습 및 테스트 목적으로 데이터를 분할합니다. 성능에 대한 공정한 추정치를 얻기 위해 모델은 먼저 훈련 데이터세트를 기반으로 훈련한 다음 테스트 데이터세트에서 이 모델을 테스트합니다.

Amazon Fraud Detector는 모델 학습EVENT_TIMESTAMP 중에 입력된 값에 대해 다음과 같은 날짜/타임스탬프 형식을 지원합니다.

  • %yyy-%mm-%DDT%HH: %mm: %ssZ (밀리초 없이 UTC로만 표시되는 ISO 8601 표준)

    예: 2019-11-30T13:01:01 Z

  • %yyy/%mm/%dd %hh: %mm: %s (오전/오후)

    예: 2019/11/30 오후 1:01:01 또는 2019/11/30 13:01:01

  • %mm/%dd/%yyyy %hh: %mm: %s

    예: 2019년 11월 30일 오후 1:01:01, 2019년 11월 30일 13:01:01

  • %mm/%dd/%yy %hh: %mm: %ss

    예: 11/30/19 오후 1:01:01, 11/30/19 13:01:01

Amazon Fraud Detector는 이벤트 타임스탬프의 날짜/타임스탬프 형식을 분석할 때 다음과 같은 가정을 합니다.

  • ISO 8601 표준을 사용하는 경우 이전 사양과 정확히 일치해야 합니다.

  • 다른 형식 중 하나를 사용하는 경우 유연성이 더욱 향상됩니다.

    • 월 및 일 단위로 한 자리 또는 두 자리 숫자를 제공할 수 있습니다. 예를 들어, 2019년 1월 12일은 유효한 날짜입니다.

    • hh:mm:ss가 없으면 포함하지 않아도 됩니다. 즉, 날짜를 입력하기만 하면 됩니다. 시간과 분의 하위 집합 (예: hh:mm) 을 제공할 수도 있습니다. 시간만 제공하는 것은 지원되지 않습니다. 밀리초도 지원되지 않습니다.

    • AM/PM 레이블을 제공하는 경우 12시간 시간을 기준으로 합니다. AM/PM 정보가 없는 경우 24시간 시계를 사용하는 것으로 가정합니다.

    • 날짜 요소의 구분 기호로 “/” 또는 “-”를 사용할 수 있습니다. 타임스탬프 요소에는 “:”가 사용됩니다.

시간에 따른 데이터세트 샘플링

동일한 시간대의 사기 사례와 합법적인 샘플을 제공하는 것이 좋습니다. 예를 들어, 지난 6개월간의 사기 이벤트를 제공하는 경우 동일한 기간에 균등하게 발생하는 합법적인 이벤트도 제공해야 합니다. 데이터세트에 사기 및 합법적인 이벤트가 고르지 않게 분포되어 있는 경우 다음과 같은 오류 메시지가 표시될 수 있습니다. “시간의 흐름에 따른 사기 분포는 용납할 수 없을 정도로 변동적입니다. 데이터세트를 제대로 분할할 수 없습니다.” 일반적으로 이 오류를 해결하는 가장 쉬운 방법은 사기 이벤트와 합법적인 이벤트가 동일한 기간 동안 균등하게 샘플링되도록 하는 것입니다. 또한 짧은 기간 내에 사기가 급증한 경우 데이터를 제거해야 할 수도 있습니다.

균등하게 분산된 데이터세트를 만들기에 충분한 데이터를 생성할 수 없는 경우 한 가지 방법은 이벤트의 EVENT_TIMESTAMP를 무작위로 지정하여 균등하게 분산되도록 하는 것입니다. 그러나 Amazon Fraud Detector는 EVENT_TIMESTAMP를 사용하여 데이터세트의 적절한 이벤트 하위 집합에 대한 모델을 평가하기 때문에 성능 지표가 비현실적으로 표시되는 경우가 많습니다.

0값 및 누락된 값

아마존 Fraud Detector null 값과 누락된 값을 처리합니다. 그러나 변수에 대한 null 백분율은 제한되어야 합니다. EVENT_TIMESTAMP 및 EVENT_LABEL 열에는 누락된 값이 없어야 합니다.

파일 검증

다음 조건 중 하나가 트리거되는 경우 Amazon Fraud Detector (Amazon Fraud Detector) 가 모델을 학습시키는 데 실패합니다.

  • CSV를 파싱할 수 없는 경우

  • 열의 데이터 유형이 잘못된 경우