Amazon Personalize를 위한 교육 데이터 준비 - Personalize

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon Personalize를 위한 교육 데이터 준비

도메인 사용 사례 또는 레시피를 선택하고 해당 데이터 요구 사항을 적어두면 데이터 준비를 시작할 준비가 된 것입니다. Amazon Personalize는 다음과 같은 유형의 데이터를 사용할 수 있습니다.

  • 품목 상호 작용 — Amazon Personalize에서 품목 상호 작용은 카탈로그의 항목과 사용자 간의 긍정적인 상호 작용 이벤트입니다. 예를 들어 사용자가 영화를 보거나, 목록을 보거나, 신발 한 켤레를 구매하는 경우를 들 수 있습니다.

  • 아이템 — 아이템 메타데이터에는 카탈로그의 각 아이템에 대한 가격, SKU 유형, 설명, 재고 여부 등의 정보가 포함될 수 있습니다.

  • 사용자 - 사용자 메타데이터에는 각 사용자의 연령, 성별, 로열티 멤버십, 관심사 등의 정보가 포함될 수 있습니다.

  • 액션 — 액션은 고객에게 추천하고 싶은 참여 활동입니다. 작업에는 모바일 앱 설치, 멤버십 프로필 작성, 로열티 프로그램 가입, 프로모션 이메일 구독 등이 포함될 수 있습니다. 차선책-작업 레시피의 경우 작업 데이터 세트가 필요합니다. 다른 사용자 지정 레시피나 도메인 사용 사례에서는 작업 데이터를 사용하지 않습니다.

  • 액션 인터랙션 — 액션 인터랙션은 사용자와 액션 간의 인터랙션 이벤트입니다. 차선책-작업 레시피는 이 데이터와 작업 데이터 세트의 데이터를 통해 사용자에게 작업을 추천합니다. 다른 사용자 지정 레시피나 도메인 사용 사례에서는 액션-인터랙션 데이터를 사용하지 않습니다.

Amazon Personalize는 데이터 유형별로 하나씩 데이터 세트에 데이터를 저장합니다. 데이터세트마다 요구 사항이 다릅니다. Amazon Personalize 데이터세트로 데이터를 가져올 때 레코드를 대량으로 가져오거나 개별적으로 가져오거나 둘 다로 가져올 수 있습니다. 대량 가져오기에는 Amazon S3 버킷의 하나 이상의 CSV 파일에 저장된 대량의 기록 레코드를 가져오는 작업이 포함됩니다.

다음 섹션에서는 각 Amazon Personalize 데이터 세트 유형에 대한 데이터 요구 사항과 대량 데이터 준비를 위한 지침을 제공합니다. 대량 데이터가 없는 경우 섹션을 검토하여 개별 가져오기 작업을 통해 가져올 수 있는 필수 및 선택 데이터를 이해하십시오. 데이터 형식을 지정하는 데 추가 도움이 필요한 경우 Amazon 데이터 랭글러 ( SageMaker Data Wrangler) 를 사용하여 데이터를 준비할 수 있습니다. 자세한 내용은 Amazon SageMaker 데이터 랭글러를 사용하여 대량 데이터 준비 및 가져오기 단원을 참조하십시오.

데이터 준비를 마치면 스키마 파일을 생성할 준비가 된 것입니다. JSON 이 파일은 Amazon Personalize에 데이터 구조에 대해 알려줍니다. 자세한 내용은 Personalize 스키마에 대한 스키마 JSON 파일 생성 단원을 참조하십시오.

모든 유형의 데이터에 대한 대량 데이터 형식 지침

다음 지침 및 요구 사항은 대량 데이터의 형식을 올바르게 지정하는 데 도움이 될 수 있습니다.

  • 입력 데이터는 CSV (쉼표로 구분된 값) 파일에 있어야 합니다.

  • CSV파일의 첫 번째 행에는 열 헤더가 포함되어야 합니다. 헤더를 따옴표(")로 묶지 않습니다.

  • 열에는 고유한 영숫자 이름이 있어야 합니다. 예를 들어, GENRES_FIELD_1필드와 GENRESFIELD1필드를 모두 추가할 수는 없습니다.

  • 데이터세트 유형의 필수 필드가 있는지 확인하고, 해당 이름이 Personalize 요구 사항과 일치하는지 확인합니다. 예를 들어 항목 데이터에는 각 항목에 IDs 대해 ITEM_IDENTIFICATION_NUMBER 호출된 열이 있을 수 있습니다. 이 열을 ITEM _ID 필드로 사용하려면 열 이름을 로 바꾸십시오. ITEM_ID Data Wrangler를 사용하여 데이터 형식을 지정하는 경우, Personalize Data Wrangler 변환용 맵 열을 사용하여 열의 이름이 올바르게 지정되었는지 확인할 수 있습니다.

    데이터를 준비하기 위하여 Data Wrangler를 사용하는 것에 대한 자세한 내용은 Amazon SageMaker 데이터 랭글러를 사용하여 대량 데이터 준비 및 가져오기단원을 참조하세요.

  • CSV파일의 각 레코드는 한 줄에 있어야 합니다.

  • Amazon Personalize는 배열 및 맵과 같은 복잡한 데이터 유형을 지원하지 않습니다.

  • Amazon Personalize가 훈련 또는 필터링 시 부울 데이터를 사용하도록 하려면 "True" true와 "False" 1 false에 대해 문자열 값 및/또는 숫자 값을 사용하십시오. 0

  • Data Wrangler를 사용하여 데이터의 형식을 지정한 경우, Data Wrangler 변환 값을 유형으로 파싱을 사용하여 데이터 유형을 변환할 수 있습니다.

  • TIMESTAMP그리고 CREATION_TIMESTAMP 데이터는 UNIX에포크 타임 형식이어야 합니다. 자세한 내용은 타임스탬프 데이터 단원을 참조하십시오.

  • 항목 ID, 사용자 ID 및 작업 ID 데이터에 문자나 특수 " 문자를 포함하지 마십시오.

  • 데이터에 ASCII 인코딩되지 않은 문자가 포함된 경우 CSV 파일을 UTF -8 형식으로 인코딩해야 합니다.

  • 비정형 텍스트 메타데이터에 설명된 대로 모든 텍스트 데이터의 형식을 지정해야만 합니다.