기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
학습을 위한 항목 메타데이터 준비
항목 메타데이터에는 사용자가 상호 작용하는 항목에 대한 숫자 및 범주형 데이터가 포함됩니다. 항목 메타데이터의 예로는 생성 타임스탬프, 가격, 장르, 설명 및 가용성이 있습니다. 항목에 대한 메타데이터를 Personalize 항목 데이터세트로 가져옵니다.
도메인 사용 사례 또는 사용자 지정 레시피에 따라 항목 메타데이터는 Amazon Personalize가 사용자에게 더 관련성이 높은 항목을 추천하거나, 유사한 항목을 더 정확하게 예측하거나, 더 의미 있는 사용자 세그먼트를 추천하는 데 도움이 될 수 있습니다. 또한 Amazon Personalize가 추천에 새 항목을 추가하는 데 도움이 될 수 있습니다. 항목 메타데이터는 일부 도메인 사용 사례에 필요하며 모든 사용자 지정 레시피에는 선택 사항입니다. 자세한 내용은 사용 사례를 Amazon Personalize 리소스와 일치시킵니까?의 도메인 사용 사례 또는 레시피에 대한 데이터 요구 사항을 참조하세요.
Amazon Personalize는 학습 시 항목 제목 또는 작성자 데이터와 같은 비범주형 문자열 항목 데이터를 사용하지 않습니다. 그러나 이 데이터를 가져오면 추천 사항이 향상될 수 있습니다. 자세한 내용은 비범주형 문자열 데이터 단원을 참조하십시오.
Amazon Personalize가 학습 중에 고려하는 최대 항목 수는 사용 사례 또는 레시피에 따라 달라집니다. 학습 중에 고려된 항목만 추천 사항에 표시될 수 있습니다.
-
User-Personalization-v2 또는 Personalized-Ranking-v2의 경우 학습 중에 모델이 고려하는 최대 항목 수는 5백만 개입니다. 이 개수에는 항목 및 항목 상호 작용 데이터세트가 모두 포함됩니다.
-
User-Personalization-v2 및 Personalized-Ranking-v2를 제외한 모든 도메인 사용 사례 및 사용자 지정 레시피의 경우, 학습 및 추천 사항 생성 중에 모델이 고려하는 최대 항목 수는 750,000개입니다.
모든 도메인 사용 사례 및 사용자 지정 레시피의 경우 대량 항목 데이터는 CSV 파일 형식이어야 합니다. 파일의 각 행은 고유한 항목을 나타내야 합니다. 데이터 준비를 마치면 스키마 JSON 파일을 생성할 준비가 된 것입니다. 이 파일은 Amazon Personalize에 데이터 구조에 대해 알려줍니다. 자세한 내용은 Amazon Personalize 스키마에 대한 스키마 JSON 파일 생성 단원을 참조하십시오.
다음 섹션에서는 Amazon Personalize를 위한 항목 메타데이터를 준비하는 방법에 대한 자세한 정보를 제공합니다. 모든 유형의 데이터에 대한 대량 데이터 형식 지침은 대량 데이터 형식 지침을 참조하세요.
항목 데이터 요구 사항
다음은 Amazon Personalize에 대한 항목 메타데이터 요구 사항입니다.
충분한 데이터가 있는지 확실하지 않거나 품질에 대한 의문이 있는 경우 데이터를 Amazon Personalize 데이터세트로 가져와서 Amazon Personalize를 사용하여 분석할 수 있습니다. 자세한 내용은 Amazon Personalize 데이터세트에서 데이터의 품질 및 양 분석 단원을 참조하십시오.
-
모든 도메인 사용 사례 및 사용자 지정 레시피의 경우 각 항목의 고유 식별자를 저장하는 ITEM_ID 열이 있어야 합니다. 모든 항목에는 항목 ID가 있어야 합니다. 최대 길이가 256자인
string
이어야 합니다. -
사용자 지정 레시피의 경우 데이터에 범주형 문자열 또는 숫자 메타데이터 열이 하나 이상 있어야 합니다. 항목 메타데이터 열에는 빈 값/널 값이 포함될 수 있습니다. 이러한 열은 최소 70% 이상 완성하는 것이 좋습니다.
-
도메인 사용 사례의 경우 필수 열은 도메인에 따라 다릅니다. 자세한 내용은 VIDEO_ON_DEMAND 도메인 요구 사항 또는 ECOMMERCE 도메인 요구 사항을 참조하세요.
-
최대 메타데이터 열 수는 100개입니다.
VIDEO_ON_DEMAND 도메인 요구 사항
일부 사용 사례에는 항목 데이터세트가 필요합니다(VIDEO_ON_DEMAND 사용 사례 참조). 선택 사항인 경우에도 가장 관련성이 높은 추천을 받으려면 항목 메타데이터를 가져오는 것이 좋습니다. 항목 메타데이터를 가져오는 경우 데이터에 다음 열이 포함되어야 합니다.
-
ITEM_ID
-
GENRES(범주형
string
) -
CREATION_TIMESTAMP(Unix 에포크 타임 형식으로)
다음은 추가 추천 열과 필요한 유형을 나열합니다. null
유형은 열에 누락된 값이 있을 수 있음을 나타냅니다. 이러한 열은 최소 70% 이상 완성하는 것이 좋습니다. 이러한 열을 포함하면 추천 사항을 개선할 수 있습니다.
PRICE(float)
DURATION(float)
GENRE_L2(범주형
string
,null
)GENRE_L3(범주형
string
,null
)AVERAGE_RATING(
float
,null
)PRODUCT_DESCRIPTION(텍스트형
string
,null
)CONTENT_OWNER(범주형
string
,null
) – 동영상을 소유한 회사입니다. 예를 들어, 값은 HBO, 파라마운트, NBC일 수 있습니다.CONTENT_CLASSIFICATION(범주형
string
,null
) – 콘텐츠의 등급입니다. 예를 들어, 값은 G, PG, PG-13, R, NC-17 및 등급보류일 수 있습니다.
ECOMMERCE 도메인 요구 사항
항목 메타데이터는 모든 ECOMMERCE 사용 사례에 대해 선택 사항입니다. 항목 데이터가 있는 경우, 가장 관련성이 높은 추천을 받을 수 있도록 가져오는 것이 좋습니다.. 항목 메타데이터를 가져오는 경우 데이터에 다음 열이 있어야 합니다.
-
ITEM_ID
-
PRICE(
float
) -
CATEGORY_L1(범주형
string
) - 범주형 데이터 형식 지정에 대한 자세한 내용은 범주형 메타데이터 섹션을 참조하세요.
다음은 추가 추천 열과 필요한 유형을 나열합니다. null
유형은 열에 누락된 값이 있을 수 있음을 나타냅니다. 이러한 열은 최소 70% 이상 완성하는 것이 좋습니다. 이러한 열을 포함하면 추천 사항을 개선할 수 있습니다.
CATEGORY_L2(범주형
string
,null
)CATEGORY_L3(범주형
string
,null
)PRODUCT_DESCRIPTION(텍스트형
string
,null
)CREATION_TIMESTAMP(
float
)AGE_GROUP(범주형
string
,null
) – 항목의 대상 연령대입니다. 값은 신생아, 유아, 어린이, 성인일 수 있습니다.ADULT(범주형
string
,null
) – 항목이 알코올과 같이 성인으로만 제한되는지 여부입니다. 값은 예 또는 아니오일 수 있습니다.GENDER(범주형
string
,null
) – 항목의 성별입니다. 값은 남성, 여성, 남녀공용일 수 있습니다.
생성 타임스탬프 데이터
생성 타임스탬프 날짜는 Unix epoch 시간 형식(초)이어야 합니다. 예를 들어, 2020년 7월 31일 날짜의 에포크 타임스탬프(초)는 1596238243입니다. 날짜를 Unix epoch 타임스탬프로 변환하려면 Epoch 변환기 - Unix 타임스탬프 변환기
Personalize는 생성 타임스탬프 데이터(Unix epoch 시간 형식, 초 단위)를 사용하여 항목의 수명을 계산하고 그에 따라 추천을 조정합니다.
하나 이상의 항목에 대한 생성 타임스탬프 데이터가 누락된 경우, Personalize는 상호작용 데이터(있는 경우)에서 이 정보를 유추하고 항목에서 가장 오래된 상호작용 데이터의 타임스탬프를 항목 생성 타임스탬프로 사용합니다. 항목에 상호작용 데이터가 없는 경우, 생성 타임스탬프는 교육 세트에 있는 최신 상호작용의 타임스탬프로 설정되며 Personalize는 이를 새 항목으로 간주합니다.
범주형 메타데이터
특정 레시피와 모든 도메인 사용 사례를 통해 Amazon Personalize는 사용자에게 가장 관련성이 높은 항목을 나타내는 기본 패턴을 식별할 때 항목의 장르 또는 색상과 같은 범주형 메타데이터를 사용합니다. 사용 사례를 기반으로 자체 값 범위를 직접 정의합니다. 범주형 메타데이터는 어떤 언어로든 사용할 수 있습니다.
여러 범주를 갖는 항목의 경우, 세로 막대 '|'로 각 값을 구분합니다. 예를 들어, GENRES 필드의 경우 항목에 대한 데이터가 Action|Crime|Biopic
이 될 수 있습니다. 여러 수준의 범주형 데이터가 있고 일부 항목에 계층의 각 수준에 대해 여러 범주가 있는 경우, 각 수준에 대해 별도의 열을 사용하고 각 필드 이름 뒤에 GENRES, GENRE_L2, GENRE_L3 등의 수준 지표를 추가합니다. 이렇게 하면 항목이 여러 멀티 레벨 범주에 속하더라도 하위 범주를 기준으로 추천을 필터링할 수 있습니다(필터 생성 및 사용에 대한 자세한 내용은 추천 및 사용자 세그먼트 필터링 섹션을 참조하세요). 예를 들어, 동영상에는 각 범주 수준에 대해 다음과 같은 데이터가 있을 수 있습니다.
-
GENRES: 액션|어드벤처
-
GENRE_L2: 범죄|서부영화
-
GENRE_L3: 일대기 영화
이 예제에서는 동영상이 액션 > 범죄 > 일대기 영화 계층 및 모험 > 서부 영화 > 일대기 영화 계층 구조로 되어 있습니다. L3까지만 사용하는 것이 좋지만, 필요한 경우 더 많은 레벨을 사용할 수 있습니다.
범주형 값은 최대 1000자까지 입력할 수 있습니다. 범주형 값이 1000자를 초과하는 항목이 있는 경우, 데이터세트 가져오기 작업이 실패합니다. 범주형 열에는 가능한 값이 1,000개를 초과하지 않는 것이 좋습니다. 값이 더 많은 범주형 데이터를 가져오면 추천 사항에 부정적인 영향을 미칠 수 있습니다. 다음은 범주형 열의 가능한 값 수를 줄이는 데 도움이 될 수 있습니다.
-
값이 일관된 명명 규칙을 따르고 오타가 없는지 확인합니다. 예를 들어 "남성의 신발", "남성 신발", "남성 신발류"를 혼합하지 말고 "남성 신발"을 사용합니다.
-
"신발" 및 "스니커"와 같이 동일한 기본 범주를 가리키는 약간 다른 용어를 사용하는 유사한 범주를 통합합니다.
-
데이터에 더 넓은 범주(예: "신발")에 더 구체적인 하위 범주(예: "남성 신발", "여성 신발", "어린이 신발")가 포함된 계층 구조가 있는 경우 각 수준에 대해 별도의 열을 사용하고 각 필드 이름 뒤에 수준 표시기를 추가합니다. 예: CATEGORY_1, CATEGORY_2 및 CATEGORY_3. 이렇게 하면 모호하거나 중복되는 범주가 줄어들 수 있습니다.
모든 레시피와 도메인을 통해 범주형 데이터를 가져와서 항목의 속성에 따라 추천을 필터링하는 데 사용할 수 있습니다. 추천 필터링에 대한 자세한 내용은 추천 및 사용자 세그먼트 필터링단원을 참조하세요.
비정형 텍스트 메타데이터
특정 레시피와 도메인을 통해 Personalize는 제품 설명, 제품 리뷰 또는 영화 시놉시스와 같은 비정형 텍스트 메타데이터에서 중요한 정보를 추출할 수 있습니다. Personalize는 특히 새 항목이거나 상호작용 데이터가 적은 항목의 경우 구조화되지 않은 텍스트를 사용하여 사용자와 관련된 항목을 식별합니다. 최대 1개의 텍스트 필드를 추가할 수 있습니다. 아이템 데이터세트에 구조화되지 않은 텍스트 데이터를 포함하여 카탈로그의 새 항목에 대한 클릭률과 전환률을 높이세요.
구조화되지 않은 텍스트 메타데이터를 준비할 때 텍스트를 큰따옴표로 묶고 새 줄 문자를 제거합니다. \
문자를 사용하여 데이터에 있는 큰따옴표 또는 \ 문자를 이스케이프처리합니다. Personalize는 텍스트 필드를 글자 수 제한으로 잘라냅니다. 텍스트에서 가장 관련성이 높은 정보가 필드 시작 부분에 있는지 확인하세요.
구조화되지 않은 텍스트 값은 중국어와 일본어를 제외한 모든 언어에서 최대 20,000자를 포함할 수 있습니다. 중국어와 일본어의 경우, 최대 7,000자까지 입력할 수 있습니다. Personalize는 문자 제한을 초과하는 값을 문자 제한까지 잘라냅니다.
구조화되지 않은 텍스트 항목을 여러 언어로 제출할 수 있지만, 각 항목의 텍스트는 한 가지 언어로만 작성해야 합니다. 텍스트는 다음 언어로 제공될 수 있습니다.
-
중국어 간체
-
중국어 번체
-
영어
-
프랑스어
-
독일어
-
일본어
-
포르투갈어
-
스페인어
숫자 데이터
Amazon Personalize는 가격 또는 비디오 기간과 같은 숫자 항목 메타데이터를 사용하여 사용자에게 더 관련성이 높은 추천 사항을 생성할 수 있습니다. 이 숫자 데이터는 정수 또는 십진수 값으로 표시할 수 있습니다.
사용자-개인 맞춤 또는 개인 맞춤형-순위 사용자 지정 레시피를 사용하는 경우 수익 극대화와 같은 최대 관련성 외에도 항목 메타데이터 관련 목표에 대해 Amazon Personalize 솔루션을 최적화할 수 있습니다. 솔루션을 구성할 때 항목 데이터세트에서 목표와 관련된 숫자 메타데이터 열을 선택합니다. 예를 들어 스트리밍 시간을 최대화하려면 VIDEO_LENGTH 열을 선택하고 수익을 극대화하기 위해 PRICE 열을 선택할 수 있습니다.
자세한 내용은 추가 목표에 맞게 솔루션 최적화 단원을 참조하십시오.
비범주형 문자열 데이터
항목 ID를 제외하고 Amazon Personalize는 학습 시 항목 제목 또는 작성자 데이터와 같은 비범주형 비텍스트 문자열 데이터를 사용하지 않습니다. 하지만 Amazon Personalize는 이를 다음과 같은 기능과 함께 사용할 수 있습니다. 비범주형 값은 최대 1000자까지 입력할 수 있습니다.
-
Amazon Personalize는 추천에 비범주형 문자열 값을 비롯한 항목 메타데이터를 포함할 수 있습니다. 메타데이터를 통해 사용자 인터페이스에서 추천을 강화할 수 있습니다(예: 영화 추천 캐러셀에 감독 이름 추가). 자세한 내용은 추천에서 항목 메타데이터 단원을 참조하십시오.
-
유사-항목를 사용하면 테마가 포함된 배치 추천을 생성할 수 있습니다. 테마가 포함된 배치 추천을 생성할 때는 배치 추론 작업에서 항목 이름 열을 지정해야 합니다. 자세한 내용은 콘텐츠 생성기에서 테마가 있는 배치 추천 단원을 참조하십시오.
-
필터를 생성하여 비범주형 문자열 데이터를 기반으로 항목을 추천에 포함하거나 추천에서 제거할 수 있습니다. 필터에 대한 자세한 내용은 추천 및 사용자 세그먼트 필터링섹션을 참조하세요.
항목 메타데이터 예제
CSV 파일의 영화 메타데이터의 처음 몇 줄은 다음과 같을 수 있습니다.
ITEM_ID,GENRES,CREATION_TIMESTAMP,DESCRIPTION 1,Adventure|Animation|Children|Comedy|Fantasy,1570003267,"This is an animated movie that features action, comedy, and fantasy. Audience is children. This movie was released in 2004." 2,Adventure|Children|Fantasy,1571730101,"This is an adventure movie with elements of fantasy. Audience is children. This movie was release in 2010." 3,Comedy|Romance,1560515629,"This is a romantic comedy. The movie was released in 1999. Audience is young women." 4,Comedy|Drama|Romance,1581670067,"This movie includes elements of both comedy and drama as well as romance. This movie was released in 2020." ... ...
ITEM_ID
열은 필수이며 각 개별 항목에 대한 고유 식별자를 저장합니다. GENRE
열에는 각 영화에 대한 범주형 메타데이터가 저장되고 DESCRIPTION
열은 비정형 텍스트 메타데이터입니다. CREATION_TIMESTAMP
열은 각 항목 생성 시간을 Unix epoch 시간 형식으로 초 단위로 저장합니다.
데이터 준비를 마치면 스키마 JSON 파일을 생성할 준비가 된 것입니다. 이 파일은 Amazon Personalize에 데이터 구조에 대해 알려줍니다. 자세한 내용은 Amazon Personalize 스키마에 대한 스키마 JSON 파일 생성 단원을 참조하십시오. 위 샘플 데이터에 대한 스키마 JSON 파일은 다음과 같습니다.
{
"type": "record",
"name": "Items",
"namespace": "com.amazonaws.personalize.schema",
"fields": [
{
"name": "ITEM_ID",
"type": "string"
},
{
"name": "GENRES",
"type": [
"null",
"string"
],
"categorical": true
},
{
"name": "CREATION_TIMESTAMP",
"type": "long"
},
{
"name": "DESCRIPTION",
"type": [
"null",
"string"
],
"textual": true
}
],
"version": "1.0"
}