기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Amazon Personalize를 위한 학습 데이터 준비
도메인 사용 사례 또는 레시피를 선택하고 해당 데이터 요구 사항을 기록하면 데이터 준비를 시작할 준비가 된 것입니다. Amazon Personalize가 사용할 수 있는 데이터 유형:
-
항목 상호 작용 - Amazon Personalize에서 항목 상호 작용은 사용자와 카탈로그의 항목 간의 긍정적인 상호 작용 이벤트입니다. 예를 들어 영화를 보거나 목록을 보거나 신발을 구매하는 사용자입니다.
-
항목 - 항목 메타데이터에는 카탈로그의 각 항목에 대한 가격, SKU 유형, 설명 또는 가용성과 같은 정보가 포함될 수 있습니다.
-
사용자 - 사용자 메타데이터에는 연령, 성별, 로열티 멤버십, 각 사용자의 관심과 같은 정보가 포함될 수 있습니다.
-
작업 – 작업은 고객에게 추천하고 싶은 참여 활동입니다. 작업에는 모바일 앱 설치, 멤버십 프로필 작성, 로열티 프로그램 가입, 프로모션 이메일 구독 등이 포함될 수 있습니다. 차선책-작업 레시피의 경우 작업 데이터 세트가 필요합니다. 다른 사용자 지정 레시피나 도메인 사용 사례에서는 작업 데이터를 사용하지 않습니다.
-
작업 상호 작용 – 작업 상호 작용은 사용자와 작업 간의 상호 작용입니다. 차선책-작업 레시피는 이 데이터와 작업 데이터 세트의 데이터를 통해 사용자에게 작업을 추천합니다. 다른 사용자 지정 레시피나 도메인 사용 사례에서는 작업 상호 작용 데이터를 사용하지 않습니다.
Amazon Personalize는 데이터를 데이터세트에 저장하며, 각 데이터 유형에 대해 하나씩 저장합니다. 각 데이터세트에는 서로 다른 요구 사항이 있습니다. Amazon Personalize 데이터세트로 데이터를 가져올 때 레코드를 대량으로 가져오거나 개별적으로 가져오거나 두 가지 방법으로 모두 가져오도록 선택할 수 있습니다. 대량 가져오기에는 Amazon S3 버킷의 하나 이상의 CSV 파일에 저장된 많은 수의 기록 레코드를 가져오는 작업이 포함됩니다.
-
대량 데이터가 없는 경우 개별 가져오기 작업을 사용하여 Amazon Personalize 학습 요구 사항과 도메인 사용 사례 또는 레시피의 데이터 요구 사항을 충족할 때까지 데이터를 수집하고 이벤트를 스트리밍할 수 있습니다. 이벤트 기록에 대한 자세한 내용은 추천 사항에 영향을 미치기 위한 실시간 이벤트 기록 섹션을 참조하세요. 개별 레코드 가져오기에 대한 자세한 내용은 개별 레코드를 Amazon Personalize 데이터세트로 가져오기 섹션을 참조하세요.
-
충분한 데이터가 있는지 확실하지 않거나 품질에 대한 의문이 있는 경우 데이터를 Amazon Personalize 데이터세트로 가져와서 Amazon Personalize를 사용하여 분석할 수 있습니다. 자세한 내용은 Amazon Personalize 데이터세트에서 데이터의 품질 및 양 분석 단원을 참조하십시오.
다음 섹션에서는 각 Amazon Personalize 데이터세트 유형에 대한 데이터 요구 사항과 대량 데이터 준비를 위한 지침을 제공합니다. 대량 데이터가 없는 경우 섹션을 검토하여 개별 가져오기 작업으로 가져올 수 있는 필수 및 선택적 데이터를 이해합니다. 데이터 형식 지정에 추가 도움이 필요한 경우 Amazon SageMaker AI Data Wrangler(Data Wrangler)를 사용하여 데이터를 준비할 수 있습니다. 자세한 내용은 Amazon SageMaker AI Data Wrangler를 사용하여 대량 데이터 준비 및 가져오기 단원을 참조하십시오.
데이터 준비를 마치면 스키마 JSON 파일을 생성할 준비가 된 것입니다. 이 파일은 Amazon Personalize에 데이터 구조에 대해 알려줍니다. 자세한 내용은 Amazon Personalize 스키마에 대한 스키마 JSON 파일 생성 단원을 참조하십시오.
주제
모든 유형의 데이터에 대한 대량 데이터 형식 지침
다음 지침 및 요구 사항은 대량 데이터의 형식을 올바르게 지정하는 데 도움이 될 수 있습니다.
-
입력 데이터는 CSV(쉼표로 구분된 값) 파일에 있어야만 합니다.
-
CSV 파일의 첫 번째 행에는 열 헤더가 포함되어야만 합니다. 헤더를 따옴표(")로 묶지 않습니다.
-
열에는 고유한 영숫자 이름이 있어야 합니다. 예를 들어,
GENRES_FIELD_1
필드와GENRESFIELD1
필드를 모두 추가할 수는 없습니다. -
여러 CSV 파일을 틀린 경우 모든 열 헤더가 모든 파일에서 일치해야 합니다.
-
데이터세트 유형의 필수 필드가 있는지 확인하고, 해당 이름이 Personalize 요구 사항과 일치하는지 확인합니다. 예를 들어, 항목 데이터에는 각 항목의 ID가 포함된
ITEM_IDENTIFICATION_NUMBER
로 불리는 열이 있을 수 있습니다. 이 열을 ITEM_ID 필드로 사용하려면 열 이름을ITEM_ID
로 바꾸세요. Data Wrangler를 사용하여 데이터 형식을 지정하는 경우, Personalize Data Wrangler 변환용 맵 열을 사용하여 열의 이름이 올바르게 지정되었는지 확인할 수 있습니다.데이터를 준비하기 위하여 Data Wrangler를 사용하는 것에 대한 자세한 내용은 Amazon SageMaker AI Data Wrangler를 사용하여 대량 데이터 준비 및 가져오기단원을 참조하세요.
-
CSV 파일의 각 레코드는 하나의 줄에 있어야만 합니다.
-
Amazon Personalize는 배열 및 맵과 같은 복잡한 데이터 유형을 지원하지 않습니다.
-
Amazon Personalize가 학습 또는 필터링 시 부울 데이터를 사용하도록 하려면 문자열 값
"True"
및"False"
를 사용하거나 true에 대한 숫자 값1
또는 false에 대한 숫자 값0
을 사용합니다. -
Data Wrangler를 사용하여 데이터의 형식을 지정한 경우, Data Wrangler 변환 값을 유형으로 파싱을 사용하여 데이터 유형을 변환할 수 있습니다.
-
TIMESTAMP
및CREATION_TIMESTAMP
데이터는 UNIX epoch 시간 형식이어야 합니다. 자세한 내용은 타임스탬프 데이터 단원을 참조하십시오. -
항목 ID, 사용자 ID 및 작업 ID 데이터에
"
문자 또는 특수 문자를 포함시키지 마세요. -
데이터에 ASCII로 인코딩되지 않은 문자가 포함된 경우, CSV 파일은 UTF-8 형식으로 인코딩되어야만 합니다.
-
비정형 텍스트 메타데이터에 설명된 대로 모든 텍스트 데이터의 형식을 지정해야만 합니다.