기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Amazon Personalize에서 데이터세트 내보내기 작업 생성
Personalize 콘솔, AWS Command Line Interface (AWS CLI) 또는 AWS SDKs.
데이터세트 내보내기 작업 생성(콘솔)
데이터를 데이터세트로 가져오고 출력 S3 버킷을 생성한 후, 분석을 위해 데이터를 버킷으로 내보낼 수 있습니다. Personalize 콘솔을 사용하여 데이터세트를 내보내려면 데이터세트 내보내기 작업을 생성합니다. S3 버킷 생성에 대한 자세한 내용은 Simple Storage Service 사용 설명서의 버킷 생성 단원을 참조하세요.
데이터세트를 내보내기 전에 Personalize 서비스 역할이 출력 S3 버킷에 액세스하고 여기에 기록할 수 있는지 확인합니다. 데이터세트 내보내기 작업 권한 요구 사항 단원을 참조하세요.
데이터세트 내보내기 작업을 생성하려면(콘솔)
-
https://console.aws.amazon.com/personalize/home
에서 Personalize 콘솔을 엽니다. -
탐색 창에서 데이터세트 그룹을 선택합니다.
-
데이터세트 그룹 페이지에서 데이터세트 그룹을 선택합니다.
-
탐색 창에서 데이터세트를 선택합니다.
-
S3 버킷으로 내보내려는 데이터세트를 선택합니다.
-
데이터세트 내보내기 작업에서 데이터세트 내보내기 작업 생성을 선택합니다.
-
데이터세트 내보내기 작업 세부 정보에서 데이터세트 내보내기 작업 이름에 내보내기 작업의 이름을 입력합니다.
-
IAM 서비스 역할의 경우 Personalize에 대한 IAM 역할 생성에서 생성한 Personalize 서비스 역할을 선택합니다.
-
S3 데이터 출력 경로에서 대상 S3 버킷을 입력합니다. 다음 구문을 사용합니다.
s3://amzn-s3-demo-bucket/<folder path>
-
암호화 AWS KMS 에를 사용하는 경우 KMS 키 ARN에 AWS KMS 키의 Amazon 리소스 이름(ARN)을 입력합니다.
-
내보내기 데이터 유형에서 해당 데이터를 처음 가져온 방식에 따라 내보낼 데이터 유형을 선택합니다.
-
데이터세트 가져오기 작업을 사용하여 대량으로 가져온 데이터만 내보내려면 대량을 선택합니다.
-
콘솔이나
PutEvents
,PutUsers
또는PutItems
작업을 사용하여 개별적으로 가져온 데이터만 내보내려면 증분을 선택합니다. -
데이터세트의 모든 데이터를 내보내려면 둘 다를 선택합니다.
-
-
태그의 경우, 원하는 태그를 추가할 수 있습니다. Personalize 리소스 태그 지정에 대한 자세한 내용은 Personalize 리소스에 태그 지정단원을 참조하세요.
-
데이터세트 내보내기 작업 생성을 선택합니다.
데이터세트 개요 페이지의 데이터세트 내보내기 작업에서 작업이 내보내기 작업 상태와 함께 나열됩니다. 상태가 ACTIVE로 표시되면 해당 데이터세트 내보내기 작업은 완료된 것입니다. 그러면 출력 S3 버킷에서 데이터를 다운로드할 수 있습니다. S3 버킷에서 객체를 다운로드하는 방법에 대한 자세한 내용은 Simple Storage Service 사용 설명서의 객체 다운로드 단원을 참조하세요.
데이터세트 내보내기 작업 생성(AWS CLI)
데이터를 데이터세트로 가져오고 출력 S3 버킷을 생성한 후, 데이터세트를 분석을 위해 버킷으로 내보낼 수 있습니다. 를 사용하여 데이터 세트를 내보내려면 create-dataset-export-job
AWS CLI 명령을 사용하여 데이터 세트 내보내기 작업을 AWS CLI생성합니다. S3 버킷 생성에 대한 자세한 내용은 Simple Storage Service 사용 설명서의 버킷 생성 단원을 참조하세요.
데이터세트를 내보내기 전에 Personalize 서비스 역할이 출력 S3 버킷에 액세스하고 여기에 기록할 수 있는지 확인합니다. 데이터세트 내보내기 작업 권한 요구 사항을 참조하세요.
다음은 create-dataset-export-job
AWS CLI 명령의 예입니다. 작업에 이름을 부여하고, dataset arn
을 내보내려는 데이터세트의 리소스 이름(ARN)으로 바꾸고, role ARN
를 Personalize에 대한 IAM 역할 생성에서 생성했던 Personalize 서비스 역할의 ARN으로 바꿉니다. 에서의 s3DataDestination
경우 kmsKeyArn
선택적으로 AWS KMS 키의 ARN을 제공하고의 경우 출력 Amazon S3 버킷의 경로를 path
제공합니다.
ingestion-mode
의 경우 다음 옵션 중에서 내보낼 데이터를 지정합니다.
-
데이터세트 가져오기 작업을 사용하여 대량으로 가져온 데이터만 내보내려면
BULK
을 지정합니다. -
콘솔 또는
PutEvents
, PutUsers 또는PutItems
작업을 사용하여 개별적으로 가져온 데이터만 내보내려면PUT
을 지정합니다. -
데이터세트의 모든 데이터를 내보내려면
ALL
를 지정합니다.
자세한 내용은 CreateDatasetExportJob 단원을 참조하십시오.
aws personalize create-dataset-export-job \
--job-name job name
\
--dataset-arn dataset ARN
\
--job-output "{\"s3DataDestination\":{\"kmsKeyArn\":\"kms key ARN
\",\"path\":\"s3://amzn-s3-demo-bucket
/folder-name
/\"}}" \
--role-arn role ARN
\
--ingestion-mode PUT
데이터세트 내보내기 작업 ARN이 표시됩니다.
{
"datasetExportJobArn": "arn:aws:personalize:us-west-2:acct-id:dataset-export-job/DatasetExportJobName"
}
DescribeDatasetExportJob
작업을 사용하여 상태를 확인합니다.
aws personalize describe-dataset-export-job \ --dataset-export-job-arn
dataset export job ARN
데이터 세트 내보내기 작업(AWS SDKs) 생성
데이터를 데이터세트로 가져오고 출력 S3 버킷을 생성한 후, 데이터세트를 분석을 위해 버킷으로 내보낼 수 있습니다. AWS SDKs를 사용하여 데이터 세트를 내보내려면 CreateDatasetExportJob 작업을 사용하여 데이터 세트 내보내기 작업을 생성합니다. S3 버킷 생성에 대한 자세한 내용은 Simple Storage Service 사용 설명서의 버킷 생성 단원을 참조하세요.
다음 코드는 Python용 SDK(Boto3) 또는 Java 2.x용 SDK를 사용하여 데이터세트 내보내기 작업을 생성하는 방법을 보여줍니다.
데이터세트를 내보내기 전에 Personalize 서비스 역할이 출력 S3 버킷에 액세스하고 여기에 기록할 수 있는지 확인합니다. 데이터세트 내보내기 작업 권한 요구 사항을 참조하세요.
데이터세트의 데이터를 S3 버킷으로 내보내려면 다음 create_dataset_export_job
을 사용합니다. 작업에 이름을 부여하고, dataset arn
을 내보내려는 데이터세트의 리소스 이름(ARN)으로 바꾸고, role ARN
를 Personalize에 대한 IAM 역할 생성에서 생성했던 Personalize 서비스 역할의 ARN으로 바꿉니다. 에서의 s3DataDestination
경우 kmsKeyArn
선택적으로 AWS KMS 키의 ARN을 제공하고의 경우 출력 Amazon S3 버킷의 경로를 path
제공합니다.
ingestionMode
의 경우 다음 옵션 중에서 내보낼 데이터를 지정합니다.
-
데이터세트 가져오기 작업을 사용하여 대량으로 가져온 데이터만 내보내려면
BULK
을 지정합니다. -
콘솔 또는
PutEvents
, PutUsers 또는PutItems
작업을 사용하여 개별적으로 가져온 데이터만 내보내려면PUT
을 지정합니다. -
데이터세트의 모든 데이터를 내보내려면
ALL
를 지정합니다.
import boto3
personalize = boto3.client('personalize')
response = personalize.create_dataset_export_job(
jobName = 'job name
',
datasetArn = 'dataset ARN
',
jobOutput = {
"s3DataDestination": {
"kmsKeyArn": "kms key ARN
",
"path": "s3://amzn-s3-demo-bucket/folder-name/
"
}
},
roleArn = 'role ARN
',
ingestionMode = 'PUT
'
)
dsej_arn = response['datasetExportJobArn']
print ('Dataset Export Job arn: ' + dsej_arn)
description = personalize.describe_dataset_export_job(
datasetExportJobArn = dsej_arn)['datasetExportJob']
print('Name: ' + description['jobName'])
print('ARN: ' + description['datasetExportJobArn'])
print('Status: ' + description['status'])