HiveCopyActivity

在 EMR 叢集上執行 Hive 查詢。 HiveCopyActivity 可讓您更輕鬆地在 DynamoDB 資料表之間複製資料。 HiveCopyActivity接受 HiveQL 陳述式，以在資料欄和資料列層級篩選來自 DynamoDB 的輸入資料。

範例

以下範例會示範如何使用 HiveCopyActivity 和 DynamoDBExportDataFormat 來將資料從一個 DynamoDBDataNode 複製到另一個，同時根據時間戳記來篩選資料。


{
  "objects": [
    {
      "id" : "DataFormat.1",
      "name" : "DataFormat.1",
      "type" : "DynamoDBExportDataFormat",
      "column" : "timeStamp BIGINT"
    },
    {
      "id" : "DataFormat.2",
      "name" : "DataFormat.2",
      "type" : "DynamoDBExportDataFormat"
    },
    {
      "id" : "DynamoDBDataNode.1",
      "name" : "DynamoDBDataNode.1",
      "type" : "DynamoDBDataNode",
      "tableName" : "item_mapped_table_restore_temp",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.1" }
    },
    {
      "id" : "DynamoDBDataNode.2",
      "name" : "DynamoDBDataNode.2",
      "type" : "DynamoDBDataNode",
      "tableName" : "restore_table",
      "region" : "us_west_1",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.2" }
    },
    {
      "id" : "EmrCluster.1",
      "name" : "EmrCluster.1",
      "type" : "EmrCluster",
      "schedule" : { "ref" : "ResourcePeriod" },
      "masterInstanceType" : "m1.xlarge",
      "coreInstanceCount" : "4"
    },
    {
      "id" : "HiveTransform.1",
      "name" : "Hive Copy Transform.1",
      "type" : "HiveCopyActivity",
      "input" : { "ref" : "DynamoDBDataNode.1" },
      "output" : { "ref" : "DynamoDBDataNode.2" },
      "schedule" :{ "ref" : "ResourcePeriod" },
      "runsOn" : { "ref" : "EmrCluster.1" },
      "filterSql" : "`timeStamp` > unix_timestamp(\"#{@scheduledStartTime}\", \"yyyy-MM-dd'T'HH:mm:ss\")"
    },
    {
      "id" : "ResourcePeriod",
      "name" : "ResourcePeriod",
      "type" : "Schedule",
      "period" : "1 Hour",
      "startDateTime" : "2013-06-04T00:00:00",
      "endDateTime" : "2013-06-04T01:00:00"
    }
  ]
}

語法

物件呼叫欄位	描述	槽類型
schedule	在排程間隔的執行期間會呼叫此物件。使用者必須指定另一個物件的排程參考，設定此物件的相依性執行順序。使用者可以明確設定物件的排程以滿足這項需求，例如，指定 "schedule": {"ref": "DefaultSchedule"}。在大部分的情況下，建議您將排程參考放在預設的管道物件，讓所有物件都繼承該排程。或者，如果管道有排程的樹狀目錄 (主排程內還有排程)，使用者可以建立有排程參考的父物件。如需範例選用排程組態的詳細資訊，請參閱https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html。	參考物件，例如 "schedule":{"ref":"myScheduleId"}

必要的群組 (下列其中之一為必要)	描述	槽類型
runsOn	指定要在其中執行的叢集。	參考物件，例如 "runsOn":{"ref":"myResourceId"}
workerGroup	工作者群組。這是用於路由任務。如果您提供 `runsOn` 值，且 `workerGroup` 存在，則會忽略 `workerGroup`。	字串

選用欄位	描述	槽類型
attemptStatus	遠端活動最新回報的狀態。	字串
attemptTimeout	遠端工作完成的逾時。如果設定，則系統可能會重試未在設定開始時間內完成的遠端活動。	期間
dependsOn	指定與其他可執行物件的相依性。	參考物件，例如 "dependsOn":{"ref":"myActivityId"}
failureAndRerunMode	描述相依性故障或重新執行時的消費者節點行為。	列舉
filterSql	Hive SQL 陳述式片段，可篩選要複製的 DynamoDB 或 Amazon S3 資料子集。篩選條件應該只包含述詞，而不是以`WHERE`子句開頭，因為會自動 AWS Data Pipeline 新增它。	字串
input	輸入資料來源。此必須為 `S3DataNode` 或 `DynamoDBDataNode`。如果您使用 `DynamoDBNode`，請指定 `DynamoDBExportDataFormat`。	參考物件，例如 "input":{"ref":"myDataNodeId"}
lateAfterTimeout	物件必須完成的管道啟動後經過的時間。只有在排程類型未設定為時，才會觸發它`ondemand`。	期間
maxActiveInstances	同時作用中的元件執行個體數目上限。重新執行不計入作用中的執行個體數量。	Integer
maximumRetries	故障時嘗試重試的次數上限。	Integer
onFail	目前物件發生故障時要執行的動作。	參考物件，例如 "onFail":{"ref":"myActionId"}
onLateAction	某個物件尚未排程或仍未完成時，應該觸發的動作。	參考物件，例如 "onLateAction":{"ref":"myActionId"}
onSuccess	目前物件成功時要執行的動作。	參考物件，例如 "onSuccess":{"ref":"myActionId"}
output	輸出資料來源。如果輸入是 `S3DataNode`，這必須為 `DynamoDBDataNode`。否則，此項目可以是 `S3DataNode` 或 `DynamoDBDataNode`。如果您使用 `DynamoDBNode`，請指定 `DynamoDBExportDataFormat`。	參考物件，例如 "output":{"ref":"myDataNodeId"}
parent	目前物件的父系，其槽會被繼承。	參考物件，例如 "parent":{"ref":"myBaseObjectId"}
pipelineLogUri	用於上傳管道日誌的 Amazon S3 URI `'s3://BucketName/Key/'`，例如。	字串
postActivityTaskConfig	要執行的活動後組態指令碼。這包含 Amazon S3 中的 shell 指令碼 URI 和引數清單。	參考物件，例如 "postActivityTaskConfig":{"ref":"myShellScriptConfigId"}
preActivityTaskConfig	要執行的活動前組態指令碼。這包含 Amazon S3 中的 shell 指令碼 URI 和引數清單。	參考物件，例如 "preActivityTaskConfig":{"ref":"myShellScriptConfigId"}
precondition	可選擇性定義先決條件。在所有先決條件滿足前，資料節點不會標示為"READY"。	參考物件，例如 "precondition":{"ref":"myPreconditionId"}
reportProgressTimeout	遠端工作連續呼叫 `reportProgress` 的逾時。如果設定，則不回報指定時段進度的遠端活動，可能會視為已停滯而重試。	期間
resizeClusterBeforeRunning	在執行此活動之前調整叢集的大小，以容納指定為輸入或輸出的 DynamoDB 資料節點。注意如果您的活動使用 `DynamoDBDataNode`做為輸入或輸出資料節點，而且如果您`resizeClusterBeforeRunning`將設定為 `TRUE`，則會使用`m3.xlarge`執行個體類型 AWS Data Pipeline 開始。這會將您選擇的執行個體類型覆寫為 `m3.xlarge`，可能會增加您的每月成本。	Boolean
resizeClusterMaxInstances	調整大小演算法可請求的執行個體數目上限	Integer
retryDelay	兩次重試嘗試之間的逾時持續時間。	期間
scheduleType	排程類型可讓您指定管道定義的物件應該排程在間隔開頭還是間隔結尾。時間序列樣式排程表示執行個體排程在每個間隔的結尾，而 Cron 樣式排程表示執行個體排程在每個間隔的開頭。隨需排程可讓您在每次啟用時執行一次管道。這表示您不必複製或重新建立管道，然後再執行一次。若您使用隨需排程，則必須在預設物件中指定此排程，且其必須是針對管道中物件指定的唯一 scheduleType。若要使用隨需管道，您只要針對每次後續執行呼叫 ActivatePipeline 操作即可。值為：Cron、ondemand 和 timeseries。	列舉

執行時間欄位	描述	槽類型
@activeInstances	目前已排程的作用中執行個體物件清單。	參考物件，例如 "activeInstances":{"ref":"myRunnableObjectId"}
@actualEndTime	此物件執行完成的時間。	DateTime
@actualStartTime	此物件執行開始的時間。	DateTime
cancellationReason	若此物件已取消，會提供 cancellationReason。	字串
@cascadeFailedOn	物件失敗所在的相依鏈的描述。	參考物件，例如 "cascadeFailedOn":{"ref":"myRunnableObjectId"}
emrStepLog	Amazon EMR 步驟日誌僅適用於 EMR 活動嘗試。	字串
errorId	若此物件失敗，會提供 errorId。	字串
errorMessage	若此物件失敗，會提供 errorMessage。	字串
errorStackTrace	如果此物件失敗，則為錯誤堆疊追蹤。	字串
@finishedTime	此物件完成其執行的時間。	DateTime
hadoopJobLog	嘗試 EMR 型活動可用的 Hadoop 任務日誌。	字串
@healthStatus	反映已達終止狀態之最後一個物件執行個體成功或失敗的物件運作狀態。	字串
@healthStatusFromInstanceId	已達終止狀態之最後一個執行個體物件的 ID。	字串
@healthStatusUpdatedTime	上次更新運作狀態的時間。	DateTime
hostname	選取任務嘗試之用戶端的主機名稱。	字串
@lastDeactivatedTime	此物件最後停用的時間。	DateTime
@latestCompletedRunTime	執行完成最近一次執行的時間。	DateTime
@latestRunTime	執行排程最近一次執行的時間。	DateTime
@nextRunTime	下次要排程執行的時間。	DateTime
reportProgressTime	遠端活動最近報告進度的時間。	DateTime
@scheduledEndTime	物件的排程結束時間。	DateTime
@scheduledStartTime	物件的排程開始時間。	DateTime
@status	此物件的狀態。	字串
@version	建立物件使用的管道版本。	字串
@waitingOn	此物件等待之相依性清單的描述。	參考物件，例如 "waitingOn":{"ref":"myRunnableObjectId"}

系統欄位	描述	槽類型
@error	描述格式錯誤物件的錯誤。	字串
@pipelineId	此物件所屬管道的 ID。	字串
@sphere	物件範圍代表其在生命週期中的位置：Component 物件會引發執行 Attempt 物件的 Instance 物件。	字串

另請參閱

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

HiveActivity

PigActivity

HiveCopyActivity

範例

語法

注意

另請參閱