

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# Amazon Personalize를 위한 학습 데이터 준비
<a name="preparing-training-data"></a>

[도메인 사용 사례 또는 레시피를 선택](use-cases-and-recipes.md)하고 해당 데이터 요구 사항을 기록하면 데이터 준비를 시작할 준비가 된 것입니다. Amazon Personalize가 사용할 수 있는 데이터 유형:
+ [**항목 상호 작용**](interactions-datasets.md) - Amazon Personalize에서 *항목 상호 작용*은 사용자와 카탈로그의 항목 간의 긍정적인 상호 작용 이벤트입니다. 예를 들어 영화를 보거나 목록을 보거나 신발을 구매하는 사용자입니다.
+ [**항목**](items-datasets.md) - 항목 메타데이터에는 카탈로그의 각 항목에 대한 가격, SKU 유형, 설명 또는 가용성과 같은 정보가 포함될 수 있습니다.
+ [**사용자**](users-datasets.md) - 사용자 메타데이터에는 연령, 성별, 로열티 멤버십, 각 사용자의 관심과 같은 정보가 포함될 수 있습니다.
+ [**작업**](actions-datasets.md) – *작업*은 고객에게 추천하고 싶은 참여 활동입니다. 작업에는 모바일 앱 설치, 멤버십 프로필 작성, 로열티 프로그램 가입, 프로모션 이메일 구독 등이 포함될 수 있습니다. 차선책-작업 레시피의 경우 작업 데이터 세트가 필요합니다. 다른 사용자 지정 레시피나 도메인 사용 사례에서는 작업 데이터를 사용하지 않습니다.
+ [**작업 상호 작용**](action-interactions-datasets.md) – 작업 상호 작용은 사용자와 작업 간의 상호 작용입니다. 차선책-작업 레시피는 이 데이터와 작업 데이터 세트의 데이터를 통해 사용자에게 작업을 추천합니다. 다른 사용자 지정 레시피나 도메인 사용 사례에서는 작업 상호 작용 데이터를 사용하지 않습니다.

Amazon Personalize는 데이터를 *데이터세트*에 저장하며, 각 데이터 유형에 대해 하나씩 저장합니다. 각 데이터세트에는 서로 다른 요구 사항이 있습니다. Amazon Personalize 데이터세트로 데이터를 가져올 때 레코드를 대량으로 가져오거나 개별적으로 가져오거나 두 가지 방법으로 모두 가져오도록 선택할 수 있습니다. 대량 가져오기에는 Amazon S3 버킷의 하나 이상의 CSV 파일에 저장된 많은 수의 기록 레코드를 가져오는 작업이 포함됩니다.
+ 대량 데이터가 없는 경우 개별 가져오기 작업을 사용하여 Amazon Personalize 학습 요구 사항과 도메인 사용 사례 또는 레시피의 데이터 요구 사항을 충족할 때까지 데이터를 수집하고 이벤트를 스트리밍할 수 있습니다. 이벤트 기록에 대한 자세한 내용은 [추천 사항에 영향을 미치기 위한 실시간 이벤트 기록](recording-events.md) 섹션을 참조하세요. 개별 레코드 가져오기에 대한 자세한 내용은 [개별 레코드를 Amazon Personalize 데이터세트로 가져오기](incremental-data-updates.md) 섹션을 참조하세요.
+ 충분한 데이터가 있는지 확실하지 않거나 품질에 대한 의문이 있는 경우 데이터를 Amazon Personalize 데이터세트로 가져와서 Amazon Personalize를 사용하여 분석할 수 있습니다. 자세한 내용은 [Amazon Personalize 데이터세트에서 데이터의 품질 및 양 분석](analyzing-data.md) 섹션을 참조하세요.

 다음 섹션에서는 각 Amazon Personalize 데이터세트 유형에 대한 데이터 요구 사항과 대량 데이터 준비를 위한 지침을 제공합니다. 대량 데이터가 없는 경우 섹션을 검토하여 개별 가져오기 작업으로 가져올 수 있는 필수 및 선택적 데이터를 이해합니다. 데이터 형식 지정에 대한 추가 지원이 필요한 경우 Amazon SageMaker AI Data Wrangler(Data Wrangler)를 사용하여 데이터를 준비할 수 있습니다. 자세한 내용은 [Amazon SageMaker AI Data Wrangler를 사용하여 대량 데이터를 준비하고 가져오기](preparing-importing-with-data-wrangler.md) 섹션을 참조하세요.

데이터 준비를 마치면 스키마 JSON 파일을 생성할 준비가 된 것입니다. 이 파일은 Amazon Personalize에 데이터 구조에 대해 알려줍니다. 자세한 내용은 [Amazon Personalize 스키마에 대한 스키마 JSON 파일 생성](how-it-works-dataset-schema.md) 섹션을 참조하세요.

**Topics**
+ [모든 유형의 데이터에 대한 대량 데이터 형식 지침](#general-formatting-guidelines)
+ [학습을 위한 항목 상호 작용 데이터 준비](interactions-datasets.md)
+ [학습을 위한 항목 메타데이터 준비](items-datasets.md)
+ [학습을 위한 사용자 메타데이터 준비](users-datasets.md)
+ [학습을 위한 작업 메타데이터 준비](actions-datasets.md)
+ [학습을 위한 작업 상호 작용 데이터 준비](action-interactions-datasets.md)

## 모든 유형의 데이터에 대한 대량 데이터 형식 지침
<a name="general-formatting-guidelines"></a>

다음 지침 및 요구 사항은 대량 데이터의 형식을 올바르게 지정하는 데 도움이 될 수 있습니다.
+ 입력 데이터는 CSV(쉼표로 구분된 값) 파일에 있어야만 합니다.
+ CSV 파일의 첫 번째 행에는 열 헤더가 포함되어야만 합니다. 헤더를 따옴표(")로 묶지 않습니다.
+  열에는 고유한 영숫자 이름이 있어야 합니다. 예를 들어, `GENRES_FIELD_1`필드와 `GENRESFIELD1`필드를 모두 추가할 수는 없습니다.
+ 여러 CSV 파일을 가져오는 경우, 모든 열 헤더가 모든 파일에서 일치해야 합니다.
+ 데이터세트 유형의 필수 필드가 있는지 확인하고, 해당 이름이 Personalize 요구 사항과 일치하는지 확인합니다. 예를 들어, 항목 데이터에는 각 항목의 ID가 포함된 `ITEM_IDENTIFICATION_NUMBER`로 불리는 열이 있을 수 있습니다. 이 열을 ITEM\$1ID 필드로 사용하려면 열 이름을 `ITEM_ID`로 바꾸세요. Data Wrangler를 사용하여 데이터 형식을 지정하는 경우, **Personalize Data Wrangler 변환용 맵 열**을 사용하여 열의 이름이 올바르게 지정되었는지 확인할 수 있습니다.

   데이터를 준비하기 위하여 Data Wrangler를 사용하는 것에 대한 자세한 내용은 [Amazon SageMaker AI Data Wrangler를 사용하여 대량 데이터를 준비하고 가져오기](preparing-importing-with-data-wrangler.md)단원을 참조하세요.
+  CSV 파일의 각 레코드는 하나의 줄에 있어야만 합니다.
+ Amazon Personalize는 배열 및 맵과 같은 복잡한 데이터 유형을 지원하지 않습니다.
+ Amazon Personalize가 학습 또는 필터링 시 부울 데이터를 사용하도록 하려면 문자열 값 `"True"` 및 `"False"`를 사용하거나 true에 대한 숫자 값 `1` 또는 false에 대한 숫자 값 `0`을 사용합니다.
+ Data Wrangler를 사용하여 데이터의 형식을 지정한 경우, Data Wrangler 변환 [값을 유형으로 파싱](https://docs.aws.amazon.com/sagemaker/latest/dg/data-wrangler-transform.html#data-wrangler-transform-cast-type)을 사용하여 데이터 유형을 변환할 수 있습니다.
+ `TIMESTAMP` 및 `CREATION_TIMESTAMP`데이터는 *UNIX epoch* 시간 형식이어야 합니다. 자세한 내용은 [타임스탬프 데이터](interactions-datasets.md#timestamp-data) 섹션을 참조하세요.
+ 항목 ID, 사용자 ID 및 작업 ID 데이터에 `"` 문자 또는 특수 문자를 포함시키지 마세요.
+ 데이터에 ASCII로 인코딩되지 않은 문자가 포함된 경우, CSV 파일은 UTF-8 형식으로 인코딩되어야만 합니다.
+ [비정형 텍스트 메타데이터](items-datasets.md#text-data)에 설명된 대로 모든 텍스트 데이터의 형식을 지정해야만 합니다.