S3 DataNode - AWS Data Pipeline

AWS Data Pipeline 신규 고객은 더 이상 이용할 수 없습니다. 의 기존 고객 AWS Data Pipeline 정상적으로 서비스를 계속 사용할 수 있습니다. 자세히 알아보기

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

S3 DataNode

Amazon S3를 사용하여 데이터 노드를 정의합니다. 기본적으로 DataNode S3는 서버 측 암호화를 사용합니다. 이 기능을 비활성화하려면 EncryptionType s3를 로 설정하십시오. NONE

참고

S3DataNodeas 입력으로 를 CopyActivity 사용하는 경우 CSV 및 TSV 데이터 형식만 지원됩니다.

다음은 이 객체 유형의 예제입니다. 이 객체는 동일한 파이프라인 정의 파일에서 정의하려는 다른 객체를 참조합니다. CopyPeriodSchedule 객체입니다.

{ "id" : "OutputData", "type" : "S3DataNode", "schedule" : { "ref" : "CopyPeriod" }, "filePath" : "s3://myBucket/#{@scheduledStartTime}.csv" }

구문

액체 호출 필드 설명 슬롯 유형
schedule 이 객체는 예약 간격을 실행할 때 호출됩니다. 이 객체의 종속 실행 순서를 설정하려면 사용자가 다른 객체로 일정 참조를 지정해야 합니다. 사용자는 예를 들어 “schedule”: {"ref”: ""} 를 지정하는 등 객체에 대한 일정을 명시적으로 설정하여 이 요구 사항을 충족할 수 있습니다. DefaultSchedule 대부분의 경우에서는 모든 객체가 상속할 수 있도록 일정 참조를 기본 파이프라인 객체에 두는 것이 좋습니다. 또는 파이프라인에 일정 트리가 있는 경우(마스터 일정 안의 일정) 사용자가 일정 참조가 있는 부모 객체를 생성할 수 있습니다. 선택형 일정 구성 예제에 대한 자세한 내용은 https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html 단원을 참조하십시오. 참조 개체, 예: “스케줄”: {"ref”:” “} myScheduleId

선택 필드 설명 슬롯 유형
attemptStatus 원격 활동에서 가장 최근에 보고된 상태입니다. String
attemptTimeout 원격 작업 완료의 제한 시간입니다. 이 필드를 설정하면 설정된 시작 시간 이내에 완료되지 않는 원격 활동을 재시도할 수 있습니다. 기간
압축 DataNodeS3에서 설명하는 데이터의 압축 유형. “없음”은 압축되지 않으며 “gzip”은 gzip 알고리즘으로 압축됩니다. 이 필드는 Amazon Redshift와 함께 사용할 수 있고 DataNode S3를 와 함께 사용하는 경우에만 지원됩니다. CopyActivity 열거
dataFormat DataFormat 이 DataNode S3에서 설명하는 데이터에 한합니다. 참조 객체, 예: "dataFormat“: {" ref”:” myDataFormat Id "}
dependsOn 실행 가능한 다른 객체의 종속성을 지정 참조 객체, 예: "dependsOn“: {" ref”:” myActivityId “}
directoryPath Amazon S3 디렉터리 경로 이름URI: s3://my-bucket/my-key-for-directory. a filePath 또는 directoryPath 값을 제공해야 합니다. String
failureAndRerun모드 종속 요소에 장애가 있거나 재시도될 때의 소비자 노드 거동을 설명합니다. 열거
filePath Amazon S3에 있는 객체의 경로를 URI a로 표시합니다 (예: s3://my-bucket/)my-key-for-file. filePath 또는 directoryPath 값 중 하나를 제공해야 합니다. 이는 폴더와 파일 이름을 나타냅니다. directoryPath 값을 사용하여 디렉터리의 여러 파일을 수용할 수 있습니다. String
lateAfterTimeout 파이프라인 시작 후 객체가 완료되어야 하는 경과 시간입니다. 스케줄 유형이 ondemand(으)로 설정되지 않은 경우에만 트리거됩니다. 기간
manifestFilePath Amazon Redshift에서 지원하는 형식의 매니페스트 파일에 대한 Amazon S3 경로입니다. AWS Data Pipeline 매니페스트 파일을 사용하여 지정된 Amazon S3 파일을 테이블에 복사합니다. 이 필드는 a가 RedShiftCopyActivity DataNode S3를 참조하는 경우에만 유효합니다. String
maxActiveInstances 구성요소의 동시 활성 인스턴스 최대수입니다. 재실행은 활성 인스턴스의 수에 포함되지 않습니다. Integer
maximumRetries 장애 시 재시도 최대 횟수 Integer
onFail 현재 객체 장애 시 실행할 작업입니다. 참조 객체, 예: "onFail“: {" ref”:” myActionId “}
onLateAction 객체가 아직 예약되지 않았거나 아직 완료되지 않은 경우에 트리거되어야 하는 작업입니다. 참조 객체, 예: "onLateAction“: {" ref”:” myActionId “}
onSuccess 현재 객체 성공 시 실행할 작업입니다. 참조 객체, 예: "onSuccess“: {" ref”:” myActionId “}
parent 슬롯을 상속할 현재 객체의 부모입니다. 참조 객체, 예: “부모”: {"ref”:” myBaseObject Id "}
pipelineLogUri 파이프라인 로그를 업로드하기 위한 S3 URI (예: 's3://BucketName/Key/ ') String
precondition 또는 사전 조건을 정의합니다. 모든 사전 조건이 충족될 때까지 데이터 노드는 READY "“로 표시되지 않습니다. 참조 객체, 예: “전제 조건”: {"ref”:” “} myPreconditionId
reportProgressTimeout 에 대한 원격 작업 연속 호출의 제한 시간이 초과되었습니다. reportProgress 이 필드를 설정하면 지정된 기간 동안 진행 상황을 보고하지 않는 원격 활동은 중단된 것으로 간주하고 재시도할 수 있습니다. 기간
retryDelay 두 번의 재시도 사이의 제한 시간 간격입니다. 기간
runsOn 활동 또는 명령을 실행할 전산 리소스입니다. 아마존 EC2 인스턴스 또는 아마존 EMR 클러스터를 예로 들 수 있습니다. 참조 객체, 예: "runsOn“: {" ref”:” myResourceId “}
s3 EncryptionType Amazon S3 암호화 유형을 다시 정의합니다. 값은 SERVER _ SIDE _ ENCRYPTION 또는 NONE 입니다. 기본적으로 서버 측 암호화가 활성화되어 있습니다. 열거
scheduleType 일정 유형을 사용하여 파이프라인 정의에 있는 객체의 일정을 간격 시작 시점으로 또는 종료 시점으로 지정할 수 있습니다. 시계열 스타일 일정 조정은 각 간격이 종료될 때 인스턴스 일정이 지정되고 Cron 스타일 일정 조정은 각 간격이 시작될 때 인스턴스 일정이 지정됩니다. 온디맨드 일정을 사용하면 파이프라인을 활성화될 때 한 번씩 실행할 수 있습니다. 이 경우 다시 실행하기 위해 파이프라인을 복제하거나 다시 생성할 필요가 없습니다. 온디맨드 일정을 사용하는 경우 해당 일정은 기본 객체에 지정되어야 하고 파이프라인의 객체에만 scheduleType 지정되어야 합니다. 온디맨드 파이프라인을 사용하려면 이후 실행할 때마다 ActivatePipeline 작업을 호출하면 됩니다. 값은 cron, ondemand 및 timeseries입니다. 열거
workerGroup 작업자 그룹입니다. 이것은 작업 라우팅에 사용됩니다. runsOn 값을 제공하고 workerGroup 존재하면 workerGroup 무시됩니다. String

실행 시간 필드 설명 슬롯 유형
@activeInstances 현재 예약되어 있는 활성 인스턴스 객체의 목록입니다. 참조 객체, 예: "activeInstances“: {" ref”:” myRunnableObject Id "}
@actualEndTime 이 객체의 실행이 완료된 시간입니다. DateTime
@actualStartTime 이 객체의 실행이 시작된 시간입니다. DateTime
cancellationReason 이 객체가 취소된 cancellationReason 경우 String
@cascadeFailedOn 객체 실패가 발생한 종속 체인에 대한 설명입니다. 참조 객체, 예: "cascadeFailedOn“: {" ref”:” myRunnableObject Id "}
emrStepLog EMR단계 로그는 EMR 활동 시도 시에만 사용할 수 있습니다. String
errorId 이 개체가 실패한 errorId 경우 String
errorMessage 이 개체가 실패한 errorMessage 경우 String
errorStackTrace 이 객체가 실패한 경우의 오류 스택 트레이스입니다. String
@finishedTime 이 객체의 실행이 완료된 시간입니다. DateTime
hadoopJobLog EMR기반 활동 시도 시 Hadoop 작업 로그를 사용할 수 있습니다. String
@healthStatus 종료 상태에 도달한 마지막 객체 인스턴스의 성공 또는 실패를 반영하는 객체의 상태입니다. String
@healthStatusFromInstanceId 종료 상태에 도달한 마지막 인스턴스 객체의 ID입니다. String
@ 시간 healthStatusUpdated 상태가 마지막으로 업데이트된 시간입니다. DateTime
hostname 작업 시도를 선택한 클라이언트의 호스트 이름입니다. String
@lastDeactivatedTime 이 객체가 마지막으로 비활성화된 시간입니다. DateTime
@ latestCompletedRun 시간 실행이 완료된 최근 실행 시간입니다. DateTime
@latestRunTime 실행이 예약된 최근 실행 시간입니다. DateTime
@nextRunTime 다음으로 예약된 실행 시간입니다. DateTime
reportProgressTime 원격 활동에서 진행 상황을 보고한 가장 최근 시간입니다. DateTime
@scheduledEndTime 객체의 일정 종료 시간 DateTime
@scheduledStartTime 객체의 일정 시작 시간 DateTime
@상태 이 객체의 상태입니다. String
@version 객체와 함께 생성된 파이프라인 버전입니다. String
@waitingOn 이 객체가 대기 중인 종속 요소 목록에 대한 설명입니다. 참조 객체, 예: "waitingOn“: {" ref”:” myRunnableObject Id "}

시스템 필드 설명 슬롯 유형
@오류 잘못 형성된 객체를 설명하는 오류 String
@pipelineId 이 객체가 속하는 파이프라인의 ID String
@sphere 객체의 타원 무늬는 수명 주기 내 위치를 나타냅니다. Component Objects는 Attempt Objects를 실행하는 Instance Objects를 야기합니다. String

참고