사용자 지정 데이터세트 및 스키마 - Personalize

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

사용자 지정 데이터세트 및 스키마

사용자 지정 데이터세트 그룹을 만들 때는 처음부터 자체 스키마를 생성합니다. 사용자 지정 데이터세트 그룹 데이터세트와 스키마는 필수 필드 수가 더 적고 유연성이 높습니다. 다음 주제에서는 사용자 지정 데이터 세트 그룹의 데이터 세트에 대한 스키마와 데이터 요구 사항을 설명합니다. 각 데이터셋 섹션은 데이터셋 유형에 필요한 데이터를 나열하고 스키마의 JSON 예를 제공합니다.

Personalize로 가져올 수 있는 데이터 유형에 대한 자세한 내용은 Personalize가 사용할 수 있는 데이터 유형단원을 참조하세요. 형식 지정 요구 사항 및 사용 가능한 필드 데이터 유형과 같은 일반적인 Personalize 스키마 요구 사항에 대한 자세한 내용은 Personalize 스키마에 대한 스키마 JSON 파일 생성단원을 참조하세요. 이러한 요구 사항은 모든 Personalize 스키마에 적용됩니다.

사용자 지정 데이터세트 및 스키마 요구 사항

사용자 지정 데이터세트 그룹의 데이터세트를 만들 때 각 데이터세트 유형에는 다음과 같은 필수 필드와 필수 데이터 유형이 포함된 예약어가 있습니다.

데이터세트 유형 필수 필드 예약어
항목 상호 작용(스키마 예제)

USER_ID () string

ITEM_아이디 () string

TIMESTAMP (long)

EVENT_TYPE (string)

EVENT_VALUE (float, null)

IMPRESSION (string, null)

RECOMMENDATION_아이디 (string,) null

EVENT_ATTRIBUTION_SOURCE (string, null)

사용자(스키마 예제)

USER_아이디 () string

메타데이터 필드 1개(범주형 string또는 숫자형)

항목(스키마 예제)

ITEM_아이디 () string

메타데이터 필드 1개(범주형 또는 텍스트형 string필드 또는 숫자형 필드)

CREATION_TIMESTAMP (long)

작업(스키마 예제)

ACTION_아이디 () string

메타데이터 필드 1개(범주형 string또는 숫자형)

CREATION_TIMESTAMP (long)

VALUE (long, null)

TYPE (string, null)

EXPIRATION_TIMESTAMP (long, null)

REPEAT_FREQUENCY (long, null)

작업 상호 작용(스키마 예제)

USER_아이디 () string

ACTION_아이디 () string

EVENT_TYPE (string)

TIMESTAMP (long)

IMPRESSION (string, null)

RECOMMENDATION_아이디 (string,) null

메타데이터 필드

메타데이터에는 필수가 아니거나 예약어를 사용하지 않는 문자열 또는 문자열이 아닌 필드가 포함됩니다. 메타데이터 스키마에는 다음과 같은 제한이 있습니다.

  • 사용자, 항목 및 작업 스키마에는 하나 이상의 메타데이터 필드가 필요합니다.

  • 사용자 스키마의 경우 최대 25개의 메타데이터 필드, 항목 스키마의 경우 100개의 메타데이터 필드, 작업 스키마의 경우 10개의 메타데이터 필드를 추가할 수 있습니다.

  • 유형 string의 자체 메타데이터 필드를 추가하는 경우, categorical속성이나 textual속성을 포함해야만 합니다(항목 스키마는 텍스트 속성이 있는 필드만 지원함). 그렇지 않으면 Personalize는 모델을 학습할 때 필드를 사용하지 않습니다.

예약어

예약어는 메타데이터가 아닌 선택형 필드입니다. 이러한 필드는 사용할 때 필수 데이터 유형으로 필드를 정의해야 하고 예약어는 데이터의 값으로 사용할 수 없으므로 예약된 것으로 간주됩니다. 예약된 범주형 문자열 필드는 categoricaltrue로 설정되어 있어야 하지만 예약된 문자열 필드는 범주형일 수 없습니다. 다음은 예약어입니다.

  • EVENT_TYPE: 하나 이상의 이벤트 유형 (예: 클릭과 다운로드 모두) 이 있는 항목 상호작용 데이터셋의 경우 필드를 사용하세요. EVENT_TYPE EVENT_ TYPE 필드를 a로 정의해야 string 하며 범주형으로 설정할 수는 없습니다.

  • EVENT_VALUE: 이벤트에 대한 값 데이터 (예: 사용자 시청 동영상 비율) 가 포함된 항목 상호작용 데이터셋의 경우 유형이 float 및 선택적으로 있는 EVENT_VALUE 필드를 사용하세요. null

  • CREATION_TIMESTAMP: 각 항목 생성일의 타임스탬프가 있는 항목 또는 작업 데이터세트의 경우 유형이 있는 CREATION_TIMESTAMP 필드를 사용하세요. long Personalize는 CREATION_TIMESTAMP데이터를 사용하여 항목의 수명을 계산하고 그에 따라 추천을 조정합니다. 생성 타임스탬프 데이터을 참조하세요.

  • IMPRESSION: 명시적 노출 데이터가 있는 항목 상호작용 데이터세트의 경우 유형이 있는 IMPRESSION 필드를 사용하고 선택적으로 입력합니다. String null 노출은 사용자가 특정 항목과 상호작용(예: 클릭 또는 시청)했을 때 볼 수 있었던 항목의 목록입니다. 자세한 내용은 노출 데이터 단원을 참조하십시오.

  • RECOMMENDATION_ID: 이전 추천을 암시적 노출 데이터로 사용하는 항목 상호작용 데이터세트의 경우 선택적으로 유형이 있는 RECOMMENDATION_ID 필드를 사용하고 선택적으로 유형을 입력합니다. String null

    추천을 생성할 때 Personalize에 암시적 노출을 사용하기 위해 RECOMMENDATION_ID필드를 추가할 필요는 없습니다. 필드가 없어도 PutEvents작업에서 recommendationId을 전달할 수 있습니다. 자세한 내용은 노출 데이터 단원을 참조하십시오.

  • VALUE: 액션 데이터세트의 경우 일부 또는 모든 액션에 대한 가치 있는 데이터가 있다면 스키마에 필드를 추가하세요. VALUE 유형에는 long을 사용하고 필요에 따라 null 유형을 사용합니다. 작업 및 작업 값에 대한 자세한 내용은 값 데이터 섹션을 참조하세요.

  • ACTION_ EXPIRATION _TIMESTAMP: Actions 데이터세트의 경우 일부 또는 모든 작업에 만료 타임스탬프가 있는 경우 스키마에 ACTION_EXPIRATION_TIMESTAMP 필드를 추가하세요. 유형에는 long을 사용하고 필요에 따라 null 유형을 사용합니다. 만료 타임스탬프에 대한 자세한 내용은 작업 만료 타임스탬프 데이터 섹션을 참조하세요.

  • REPEAT_FREQUENCY: 액션 데이터세트의 경우 일부 또는 모든 액션에 대한 반복 빈도 데이터가 있는 경우 스키마에 REPEAT_FREQUENCY 필드를 추가하세요. 유형에는 long을 사용하고 필요에 따라 null 유형을 사용합니다. 반복 빈도 데이터에 대한 자세한 내용은 반복 빈도 데이터 섹션을 참조하세요.