데이터를 처리하고 Personalize로 가져오기 - Personalize

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

데이터를 처리하고 Personalize로 가져오기

데이터 분석 및 변환을 마치면 데이터를 처리하고 Personalize로 가져올 준비가 된 것입니다.

  • 데이터 처리 – 데이터를 처리하면 변환이 전체 데이터세트에 적용되고 지정한 대상으로 출력됩니다. 이 경우 S3 버킷을 지정합니다.

  • Amazon Personalize로 데이터 가져오기 — 처리된 데이터를 Amazon Personalize로 가져오려면 스튜디오 클래식에서 제공하는 Jupyter 노트북을 실행합니다. SageMaker 이 노트북은 Personalize 데이터세트를 생성하고 데이터를 해당 데이터세트로 가져옵니다.

데이터 처리

Personalize로 데이터를 가져오기 전에 변환을 전체 데이터세트에 적용하고 S3 버킷으로 출력해야 합니다. 이렇게 하려면 대상이 S3 버킷으로 설정된 대상 노드를 생성한 다음 변환을 위한 처리 작업을 시작합니다.

대상 지정 및 프로세스 작업 시작에 대한 step-by-step 지침은 Amazon SageMaker Data Wrangler를 사용하여 몇 번의 클릭으로 처리 작업 시작을 참조하십시오. 대상을 추가할 때 S3을 선택합니다. 처리된 데이터를 Personalize로 가져올 때 이 위치를 사용하게 됩니다.

데이터 처리를 마치면 S3 버킷에서 Personalize로 데이터를 가져올 준비가 된 것입니다.

Personalize 데이터세트로 데이터 가져오기

데이터를 처리하고 나면 Personalize로 데이터를 가져올 준비가 된 것입니다. 처리된 데이터를 Amazon Personalize로 가져오려면 스튜디오 클래식에서 제공하는 Jupyter 노트북을 실행합니다. SageMaker 이 노트북은 Personalize 데이터세트를 생성하고 데이터를 해당 데이터세트로 가져옵니다.

처리된 데이터를 Personalize로 가져오려면
  1. 내보내려는 변환의 경우, 내보내기를 선택하고 Personalize(Jupyter 노트북 사용)를 선택합니다.

  2. 노트북을 수정하여 처리 작업의 데이터 대상으로 사용한 S3 버킷을 지정합니다. 원하는 대로 데이터세트 그룹의 도메인을 지정합니다. 기본 설정으로 노트북은 사용자 지정 데이터세트 그룹을 생성합니다.

  3. 스키마를 생성하는 노트북 셀을 검토합니다. 셀을 실행하기 전에 스키마 필드에 예상 유형과 속성이 있는지 확인합니다.

    • null 데이터를 지원하는 필드가 유형 목록에 null나열된지 확인합니다. 다음 예제에서는 필드에 null을 추가하는 방법을 보여 줍니다.

      { "name": "GENDER", "type": [ "null", "string" ], "categorical": true }
    • 범주형 필드의 범주형 속성이 true로 설정되어 있는지 확인합니다. 다음 예제에서는 필드에 범주를 표시하는 방법을 보여 줍니다.

      { "name": "SUBSCRIPTION_MODEL", "type": "string", "categorical": true }
    • 텍스트 필드의 텍스트 속성이 true로 설정되어 있는지 확인합니다. 다음 예제에서는 필드에 텍스트를 표시하는 방법을 보여 줍니다.

      { "name": "DESCRIPTION", "type": [ "null", "string" ], "textual": true }
  4. 노트북을 실행하여 스키마를 생성하고, 데이터세트를 생성하고, 데이터를 Personalize 데이터세트로 가져옵니다. 스튜디오 클래식 외부에서 노트북을 실행하는 것처럼 노트북을 실행합니다. SageMaker Jupyter 노트북 실행에 대한 자세한 내용은 코드 실행을 참조하세요. SageMaker Studio Classic의 노트북에 대한 자세한 내용은 Amazon SageMaker 개발자 SageMaker 안내서의 Amazon 노트북 사용을 참조하십시오.

    노트북을 완료한 후 상호작용 데이터를 가져오고 나면 추천 또는 사용자 지정 리소스를 생성할 준비가 된 것입니다. 또는 항목 데이터세트 또는 사용자 데이터세트를 사용하여 프로세스를 반복할 수 있습니다.