dataprocessing 명령을 사용한 데이터 처리 - Amazon Neptune

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

dataprocessing 명령을 사용한 데이터 처리

Neptune ML dataprocessing 명령을 사용하여 데이터 처리 작업을 만들거나, 작업 상태를 확인하거나, 중지하거나, 모든 활성 데이터 처리 작업을 나열할 수 있습니다.

Neptune ML dataprocessing 명령을 사용하여 데이터 처리 작업 생성

새 작업을 생성하기 위한 일반적인 Neptune ML dataprocessing 명령은 다음과 같습니다.

curl \ -X POST https://(your Neptune endpoint)/ml/dataprocessing \ -H 'Content-Type: application/json' \ -d '{ "inputDataS3Location" : "s3://(Amazon S3 bucket name)/(path to your input folder)", "id" : "(a job ID for the new job)", "processedDataS3Location" : "s3://(S3 bucket name)/(path to your output folder)" }'

증분 재처리를 시작하는 명령은 다음과 같습니다.

curl \ -X POST https://(your Neptune endpoint)/ml/dataprocessing \ -H 'Content-Type: application/json' \ -d '{ "inputDataS3Location" : "s3://(Amazon S3 bucket name)/(path to your input folder)", "id" : "(a job ID for this job)", "processedDataS3Location" : "s3://(S3 bucket name)/(path to your output folder)" "previousDataProcessingJobId" : "(the job ID of a previously completed job to update)" }'
작업을 생성하는 dataprocessing 파라미터
  • id   –   (선택 사항) 새 작업의 고유 식별자입니다.

    유형: 문자열. 기본값: 자동 생성된 UUID.

  • previousDataProcessingJobId   –   (선택 사항) 이전 버전의 데이터에서 실행된 완료 데이터 처리 작업의 작업 ID입니다.

    유형: 문자열. 기본값: 없음.

    참고: 증분 데이터 처리에 사용하면 그래프 데이터가 변경될 때 모델을 업데이트할 수 있지만, 데이터가 삭제된 경우에는 모델을 업데이트할 수 없습니다.

  • inputDataS3Location   –   (필수) SageMaker가 데이터 처리 작업을 실행하는 데 필요한 데이터를 다운로드하도록 하려는 Amazon S3 위치의 URI입니다.

    유형: 문자열.

  • processedDataS3Location   –   (필수) SageMaker가 데이터 처리 작업의 결과를 저장하게 하려는 Amazon S3 위치의 URI입니다.

    유형: 문자열.

  • sagemakerIamRoleArn   –   (선택 사항) SageMaker를 실행하기 위한 IAM 역할의 ARN입니다.

    유형: 문자열. 참고: 이는 DB 클러스터 파라미터 그룹에 나열되어 있어야 합니다. 그렇지 않으면 오류가 발생합니다.

  • neptuneIamRoleArn   –   (선택 사항) SageMaker가 사용자를 대신하여 작업을 수행하도록 수임할 수 있는 IAM 역할의 Amazon 리소스 이름(ARN)입니다.

    유형: 문자열. 참고: 이는 DB 클러스터 파라미터 그룹에 나열되어 있어야 합니다. 그렇지 않으면 오류가 발생합니다.

  • processingInstanceType   –   (선택 사항) 데이터 처리 중에 사용되는 ML 인스턴스의 유형입니다. 메모리는 처리된 데이터 세트를 담을 수 있을 만큼 커야 합니다.

    유형: 문자열. 기본값: 디스크에서 내보낸 그래프 데이터 크기보다 10배 큰 메모리가 있는 가장 작은 ml.r5 유형입니다.

    참고: Neptune ML은 인스턴스 유형을 자동으로 선택할 수 있습니다. 데이터 처리를 위한 인스턴스 선택 섹션을 참조하세요.

  • processingInstanceVolumeSizeInGB   –   (선택 사항) 처리 인스턴스의 디스크 볼륨 크기입니다. 입력 데이터와 처리된 데이터 모두 디스크에 저장되므로, 볼륨 크기는 두 데이터 세트를 모두 담을 수 있을 만큼 커야 합니다.

    유형: 정수. 기본값: 0.

    참고: 지정하지 않거나 0으로 지정하면 Neptune ML은 데이터 크기를 기준으로 볼륨 크기를 자동으로 선택합니다.

  • processingTimeOutInSeconds   –   (선택 사항) 데이터 처리 작업의 제한 시간(초)입니다.

    유형: 정수. 기본값: 86,400(1일).

  • modelType   –   (선택 사항) Neptune ML이 현재 지원하는 두 모델 유형인 이기종 그래프 모델(heterogeneous)과 지식 그래프(kge) 중 하나입니다.

    유형: 문자열. 기본값: 없음.

    참고: 지정하지 않으면 Neptune ML은 데이터를 기반으로 모델 유형을 자동으로 선택합니다.

  • configFileName   –   (선택 사항) 훈련용으로 내보낸 그래프 데이터를 로드하는 방법을 설명하는 데이터 사양 파일입니다. 파일은 Neptune 내보내기 도구 키트에 의해 자동으로 생성됩니다.

    유형: 문자열. 기본값: training-data-configuration.json.

  • subnets   –   (선택 사항) Neptune VPC의 서브넷 ID입니다.

    유형: 문자열 목록. 기본값: 없음.

  • securityGroupIds   –   (선택 사항) VPC 보안 그룹 ID입니다.

    유형: 문자열 목록. 기본값: 없음.

  • volumeEncryptionKMSKey   –   (선택 사항) SageMaker가 처리 작업을 실행하는 ML 컴퓨팅 인스턴스에 연결된 스토리지 볼륨에서 데이터를 암호화하는 데 사용하는 AWS Key Management Service(AWS KMS) 키입니다.

    유형: 문자열. 기본값: 없음.

  • enableInterContainerTrafficEncryption   –   (선택 사항) 훈련 또는 하이퍼 파라미터 조정 작업에서 컨테이너 간 트래픽 암호화를 활성화하거나 비활성화합니다.

    유형: 부울. 기본값: True.

    참고

    enableInterContainerTrafficEncryption 파라미터는 엔진 릴리스 1.2.0.2.R3에서만 사용할 수 있습니다.

  • s3OutputEncryptionKMSKey   –   (선택 사항) SageMaker가 훈련 작업의 출력을 암호화하는 데 사용하는 AWS Key Management Service(AWS KMS) 키입니다.

    유형: 문자열. 기본값: 없음.

Neptune ML dataprocessing 명령을 사용하여 데이터 처리 작업의 상태 가져오기

작업 상태를 나타내는 샘플 Neptune ML dataprocessing 명령은 다음과 같습니다.

curl -s \ "https://(your Neptune endpoint)/ml/dataprocessing/(the job ID)" \ | python -m json.tool
작업 상태를 나타내는 dataprocessing 파라미터
  • id   –   (필수) 데이터 처리 작업의 고유 식별자입니다.

    유형: 문자열.

  • neptuneIamRoleArn   –   (선택 사항) SageMaker와 Amazon S3 리소스에 대한 Neptune의 액세스 권한을 제공하는 IAM 역할의 ARN입니다.

    유형: 문자열. 참고: 이는 DB 클러스터 파라미터 그룹에 나열되어 있어야 합니다. 그렇지 않으면 오류가 발생합니다.

Neptune ML dataprocessing 명령을 사용하여 데이터 처리 작업 중지

작업 중지를 위한 샘플 Neptune ML dataprocessing 명령은 다음과 같습니다.

curl -s \ -X DELETE "https://(your Neptune endpoint)/ml/dataprocessing/(the job ID)"

아니면 다음을 사용해도 됩니다.

curl -s \ -X DELETE "https://(your Neptune endpoint)/ml/dataprocessing/(the job ID)?clean=true"
작업을 중지하는 dataprocessing 파라미터
  • id   –   (필수) 데이터 처리 작업의 고유 식별자입니다.

    유형: 문자열.

  • neptuneIamRoleArn   –   (선택 사항) SageMaker와 Amazon S3 리소스에 대한 Neptune의 액세스 권한을 제공하는 IAM 역할의 ARN입니다.

    유형: 문자열. 참고: 이는 DB 클러스터 파라미터 그룹에 나열되어 있어야 합니다. 그렇지 않으면 오류가 발생합니다.

  • clean   –   (선택 사항) 이 플래그는 작업이 중지될 때 모든 Amazon S3 아티팩트를 삭제하도록 지정합니다.

    유형: 부울. 기본값: FALSE.

Neptune ML dataprocessing 명령을 사용하여 활성 데이터 처리 작업 나열

활성 작업을 나열하기 위한 샘플 Neptune ML dataprocessing 명령은 다음과 같습니다.

curl -s "https://(your Neptune endpoint)/ml/dataprocessing"

아니면 다음을 사용해도 됩니다.

curl -s "https://(your Neptune endpoint)/ml/dataprocessing?maxItems=3"
작업을 나열하는 dataprocessing 파라미터
  • maxItems   –   (선택 사항) 반환할 최대 항목 수입니다.

    유형: 정수. 기본값: 10. 최대 허용 값: 1024.

  • neptuneIamRoleArn   –   (선택 사항) SageMaker와 Amazon S3 리소스에 대한 Neptune의 액세스 권한을 제공하는 IAM 역할의 ARN입니다.

    유형: 문자열. 참고: 이는 DB 클러스터 파라미터 그룹에 나열되어 있어야 합니다. 그렇지 않으면 오류가 발생합니다.