HiveCopyActivity

EMR 클러스터에서 Hive 쿼리를 실행합니다. HiveCopyActivity을(를) 사용하면 DynamoDB 테이블 사이에서 데이터를 보다 쉽게 복사할 수 있습니다. HiveCopyActivity은(는) HiveQL 문을 사용하여 열 및 행 수준에서 DynamoDB의 입력 데이터를 필터링합니다.

예제

다음 예제는 데이터를 필터링하는 동안 타임스탬프를 기반으로 HiveCopyActivity 및 DynamoDBExportDataFormat을 사용하여 한 DynamoDBDataNode에서 다른 로 데이터를 복사하는 방법을 보여줍니다.


{
  "objects": [
    {
      "id" : "DataFormat.1",
      "name" : "DataFormat.1",
      "type" : "DynamoDBExportDataFormat",
      "column" : "timeStamp BIGINT"
    },
    {
      "id" : "DataFormat.2",
      "name" : "DataFormat.2",
      "type" : "DynamoDBExportDataFormat"
    },
    {
      "id" : "DynamoDBDataNode.1",
      "name" : "DynamoDBDataNode.1",
      "type" : "DynamoDBDataNode",
      "tableName" : "item_mapped_table_restore_temp",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.1" }
    },
    {
      "id" : "DynamoDBDataNode.2",
      "name" : "DynamoDBDataNode.2",
      "type" : "DynamoDBDataNode",
      "tableName" : "restore_table",
      "region" : "us_west_1",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.2" }
    },
    {
      "id" : "EmrCluster.1",
      "name" : "EmrCluster.1",
      "type" : "EmrCluster",
      "schedule" : { "ref" : "ResourcePeriod" },
      "masterInstanceType" : "m1.xlarge",
      "coreInstanceCount" : "4"
    },
    {
      "id" : "HiveTransform.1",
      "name" : "Hive Copy Transform.1",
      "type" : "HiveCopyActivity",
      "input" : { "ref" : "DynamoDBDataNode.1" },
      "output" : { "ref" : "DynamoDBDataNode.2" },
      "schedule" :{ "ref" : "ResourcePeriod" },
      "runsOn" : { "ref" : "EmrCluster.1" },
      "filterSql" : "`timeStamp` > unix_timestamp(\"#{@scheduledStartTime}\", \"yyyy-MM-dd'T'HH:mm:ss\")"
    },
    {
      "id" : "ResourcePeriod",
      "name" : "ResourcePeriod",
      "type" : "Schedule",
      "period" : "1 Hour",
      "startDateTime" : "2013-06-04T00:00:00",
      "endDateTime" : "2013-06-04T01:00:00"
    }
  ]
}

구문

액체 호출 필드	설명	슬롯 유형
schedule	이 객체는 예약 간격을 실행할 때 호출됩니다. 이 객체의 종속 실행 순서를 설정하려면 사용자가 다른 객체로 일정 참조를 지정해야 합니다. 사용자가 객체에서 일정을 명확히 설정하여(예: "schedule": {"ref": "DefaultSchedule"} 지정)하여 이 요건을 충족할 수 있습니다. 대부분의 경우에서는 모든 객체가 상속할 수 있도록 일정 참조를 기본 파이프라인 객체에 두는 것이 좋습니다. 또는 파이프라인에 일정 트리가 있는 경우(마스터 일정 안의 일정) 사용자가 일정 참조가 있는 부모 객체를 생성할 수 있습니다. 선택형 일정 구성 예제에 대한 자세한 내용은 https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html 단원을 참조하십시오.	참조 객체. 예: "schedule":{"ref":"myScheduleId"}

필수 그룹(다음 중 하나를 제공해야 함)	설명	슬롯 유형
runsOn	실행할 클러스터를 지정합니다.	참조 객체. 예: "runsOn":{"ref":"myResourceId"}
workerGroup	작업자 그룹입니다. 이것은 작업 라우팅에 사용됩니다. `workerGroup`이 있을 때 `runsOn` 값을 제공하면 `workerGroup`이 무시됩니다.	String

선택 필드	설명	슬롯 유형
attemptStatus	원격 활동에서 가장 최근에 보고한 상태입니다.	String
attemptTimeout	원격 작업 완료의 제한 시간입니다. 이 필드를 설정하면 설정된 시작 시간 이내에 완료되지 않는 원격 활동을 재시도할 수 있습니다.	기간
dependsOn	실행 가능한 다른 객체의 종속성을 지정합니다.	참조 객체. 예: "dependsOn":{"ref":"myActivityId"}
failureAndRerunMode	종속 요소에 장애가 있거나 재시도될 때의 소비자 노드 거동을 설명합니다.	열거
filterSql	복사할 DynamoDB 또는 Amazon S3 데이터의 하위 집합을 필터링하는 Hive SQL 문장의 일부입니다. 는 자동으로 AWS Data Pipeline 추가하기 때문에 필터에는 조건자만 포함되어야 하며 `WHERE` 절로 시작해서는 안 됩니다.	String
입력	입력 데이터 소스입니다. 이 값은 `S3DataNode` 또는 `DynamoDBDataNode`여야 합니다. `DynamoDBNode`를 사용하는 경우 `DynamoDBExportDataFormat`을 지정합니다.	참조 객체, 예: "input":{"ref":"myDataNodeId"}
lateAfterTimeout	파이프라인 시작 후 객체가 완료되어야 하는 경과 시간입니다. 스케줄 유형이 `ondemand`(으)로 설정되지 않은 경우에만 트리거됩니다.	기간
maxActiveInstances	구성요소의 동시 활성 인스턴스 최대수입니다. 재실행은 활성 인스턴스의 수에 포함되지 않습니다.	Integer
maximumRetries	장애 시 재시도 최대 횟수.	Integer
onFail	현재 객체 장애 시 실행할 작업입니다.	참조 객체. 예: "onFail":{"ref":"myActionId"}
onLateAction	객체가 아직 예약되지 않았거나 아직 완료되지 않은 경우에 트리거되어야 하는 작업입니다.	참조 객체. 예: "onLateAction":{"ref":"myActionId"}
onSuccess	현재 객체 성공 시 실행할 작업입니다.	참조 객체. 예: "onSuccess":{"ref":"myActionId"}
output	출력 데이터 소스입니다. 입력이 `S3DataNode`인 경우 이 값은 `DynamoDBDataNode`여야 합니다. 그 외의 경우에는 `S3DataNode` 또는 `DynamoDBDataNode`가 될 수 있습니다. `DynamoDBNode`를 사용하는 경우 `DynamoDBExportDataFormat`을 지정합니다.	참조 객체, 예: "output":{"ref":"myDataNodeId"}
parent	슬롯을 상속할 현재 객체의 부모입니다.	참조 객체. 예: "parent":{"ref":"myBaseObjectId"}
pipelineLogUri	파이프라인의 로그를 업로드할 Amazon S3 URI(예: `'s3://BucketName/Key/'`)입니다.	String
postActivityTaskConfig	실행할 사후 활동 구성 스크립트입니다. 이것은 Amazon S3의 셸 스크립트 URI와 인수 목록으로 구성됩니다.	참조 객체. 예: "postActivityTaskConfig":{"ref":"myShellScriptConfigId"}
preActivityTaskConfig	실행할 사전 활동 구성 스크립트입니다. 이것은 Amazon S3의 셸 스크립트 URI와 인수 목록으로 구성됩니다.	참조 객체. 예: "preActivityTaskConfig":{"ref":"myShellScriptConfigId"}
precondition	또는 사전 조건을 정의합니다. 모든 사전 조건이 충족되기 전까지 데이터 노드에 "READY"가 표시되지 않습니다.	참조 객체. 예: "precondition":{"ref":"myPreconditionId"}
reportProgressTimeout	원격 작업에서 `reportProgress`를 연속으로 호출하는 제한 시간입니다. 이 필드를 설정하면 지정된 기간 동안 진행 상황을 보고하지 않는 원격 활동은 중단된 것으로 간주하고 재시도할 수 있습니다.	기간
resizeClusterBeforeRunning	이 활동을 수행하기 전에 입력 또는 출력으로 지정된 DynamoDB 데이터 노드가 포함되도록 클러스터 크기를 조정합니다. 참고 활동이를 입력 또는 출력 데이터 노드`DynamoDBDataNode`로 사용하고를 `resizeClusterBeforeRunning`로 설정하면가 `m3.xlarge` 인스턴스 유형을 사용하여 `TRUE` AWS Data Pipeline 시작합니다. 그러면 해당 인스턴스 유형 선택을 `m3.xlarge`가 덮어써서 월 요금이 증가할 수 있습니다.	불
resizeClusterMaxInstances	크기 조정 알고리즘으로 요청할 수 있는 인스턴스의 최대 수에 대한 제한입니다.	Integer
retryDelay	두 번의 재시도 사이의 제한 시간 간격입니다.	기간
scheduleType	일정 유형을 사용하여 파이프라인 정의에 있는 객체의 일정을 간격 시작 시점으로 또는 종료 시점으로 지정할 수 있습니다. 시계열 스타일 일정 조정은 각 간격이 종료될 때 인스턴스 일정이 지정되고 Cron 스타일 일정 조정은 각 간격이 시작될 때 인스턴스 일정이 지정됩니다. 온디맨드 일정을 사용하면 파이프라인을 활성화될 때 한 번씩 실행할 수 있습니다. 이 경우 다시 실행하기 위해 파이프라인을 복제하거나 다시 생성할 필요가 없습니다. 온디맨드 일정을 사용하려면 기본 객체에서 지정해야 하며, 이것이 파이프라인의 객체에 지정된 유일한 schuleType이어야 합니다. 온디맨드 파이프라인을 사용하려면 이후 실행할 때마다 ActivatePipeline 작업을 호출하면 됩니다. 값은 cron, ondemand 및 timeseries입니다.	열거

실행 시간 필드	설명	슬롯 유형
@activeInstances	현재 예약되어 있는 활성 인스턴스 객체의 목록입니다.	참조 객체. 예: "activeInstances":{"ref":"myRunnableObjectId"}
@actualEndTime	이 객체의 실행이 완료된 시간입니다.	DateTime
@actualStartTime	이 객체의 실행이 시작된 시간입니다.	DateTime
cancellationReason	이 객체가 취소된 경우의 cancellationReason입니다.	String
@cascadeFailedOn	객체 실패가 발생한 종속 체인에 대한 설명입니다.	참조 객체. 예: "cascadeFailedOn":{"ref":"myRunnableObjectId"}
emrStepLog	EMR 활동 시도 시에만 사용할 수 있는 Amazon EMR 단계 로그.	String
errorId	이 객체가 실패한 경우의 errorId입니다.	String
errorMessage	이 객체가 실패한 경우의 errorMessage입니다.	String
errorStackTrace	이 객체가 실패한 경우의 오류 스택 트레이스입니다.	String
@finishedTime	이 객체의 실행이 완료된 시간입니다.	DateTime
hadoopJobLog	EMR 기반 활동 시도 시에만 사용할 수 있는 하둡 작업 로그.	문자열
@healthStatus	종료 상태에 도달한 마지막 객체 인스턴스의 성공 또는 실패를 반영하는 객체의 상태입니다.	String
@healthStatusFromInstanceId	종료 상태에 도달한 마지막 인스턴스 객체의 ID입니다.	String
@healthStatusUpdatedTime	상태가 마지막으로 업데이트된 시간입니다.	DateTime
hostname	작업 시도를 선택한 클라이언트의 호스트 이름입니다.	String
@lastDeactivatedTime	이 객체가 마지막으로 비활성화된 시간입니다.	DateTime
@latestCompletedRunTime	실행이 완료된 최근 실행 시간입니다.	DateTime
@latestRunTime	실행이 예약된 최근 실행 시간입니다.	DateTime
@nextRunTime	다음으로 예약된 실행 시간입니다.	DateTime
reportProgressTime	원격 활동에서 진행 상황을 보고한 가장 최근 시간입니다.	DateTime
@scheduledEndTime	객체의 일정 종료 시간.	DateTime
@scheduledStartTime	객체의 일정 시작 시간.	DateTime
@상태	이 객체의 상태입니다.	String
@version	객체와 함께 생성된 파이프라인 버전입니다.	String
@waitingOn	이 객체가 대기 중인 종속 요소 목록에 대한 설명입니다.	참조 객체. 예: "waitingOn":{"ref":"myRunnableObjectId"}

시스템 필드	설명	슬롯 유형
@오류	잘못 형성된 객체를 설명하는 오류.	String
@pipelineId	이 객체가 속하는 파이프라인의 ID.	String
@sphere	객체의 타원 무늬는 수명 주기 내 위치를 나타냅니다. Component Objects는 Attempt Object를 실행하는 Instance Objects를 야기합니다.	String

참고

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

HiveActivity

PigActivity