Beispiel Syntax Weitere Informationen finden Sie unter:

HiveCopyActivity

Führt eine Hive-Abfrage auf einem EMR Cluster aus. HiveCopyActivityerleichtert das Kopieren von Daten zwischen DynamoDB-Tabellen. HiveCopyActivityakzeptiert eine HiveQL-Anweisung zum Filtern von Eingabedaten aus DynamoDB auf Spalten- und Zeilenebene.

Beispiel

Das folgende Beispiel zeigt, wie Sie mit HiveCopyActivity und DynamoDBExportDataFormat Daten von einem DynamoDBDataNode auf einen anderen kopieren können, während gleichzeitig Daten basierend auf einem Zeitstempel gefiltert werden.


{
  "objects": [
    {
      "id" : "DataFormat.1",
      "name" : "DataFormat.1",
      "type" : "DynamoDBExportDataFormat",
      "column" : "timeStamp BIGINT"
    },
    {
      "id" : "DataFormat.2",
      "name" : "DataFormat.2",
      "type" : "DynamoDBExportDataFormat"
    },
    {
      "id" : "DynamoDBDataNode.1",
      "name" : "DynamoDBDataNode.1",
      "type" : "DynamoDBDataNode",
      "tableName" : "item_mapped_table_restore_temp",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.1" }
    },
    {
      "id" : "DynamoDBDataNode.2",
      "name" : "DynamoDBDataNode.2",
      "type" : "DynamoDBDataNode",
      "tableName" : "restore_table",
      "region" : "us_west_1",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.2" }
    },
    {
      "id" : "EmrCluster.1",
      "name" : "EmrCluster.1",
      "type" : "EmrCluster",
      "schedule" : { "ref" : "ResourcePeriod" },
      "masterInstanceType" : "m1.xlarge",
      "coreInstanceCount" : "4"
    },
    {
      "id" : "HiveTransform.1",
      "name" : "Hive Copy Transform.1",
      "type" : "HiveCopyActivity",
      "input" : { "ref" : "DynamoDBDataNode.1" },
      "output" : { "ref" : "DynamoDBDataNode.2" },
      "schedule" :{ "ref" : "ResourcePeriod" },
      "runsOn" : { "ref" : "EmrCluster.1" },
      "filterSql" : "`timeStamp` > unix_timestamp(\"#{@scheduledStartTime}\", \"yyyy-MM-dd'T'HH:mm:ss\")"
    },
    {
      "id" : "ResourcePeriod",
      "name" : "ResourcePeriod",
      "type" : "Schedule",
      "period" : "1 Hour",
      "startDateTime" : "2013-06-04T00:00:00",
      "endDateTime" : "2013-06-04T01:00:00"
    }
  ]
}

Syntax

Objektaufruf-Felder	Beschreibung	Slot-Typ
schedule	Dieses Objekt wird innerhalb der Ausführung eines Zeitplanintervalls aufgerufen. Benutzer müssen einen Zeitplanverweis auf ein anderes Objekt angeben, um die Abhängigkeitsausführungsreihenfolge für dieses Objekt festzulegen. Benutzer können diese Anforderung erfüllen, indem sie explizit einen Zeitplan für das Objekt festlegen, indem sie beispielsweise „schedule“: {"ref“: "„} angeben. DefaultSchedule In den meisten Fällen ist es besser, den Zeitplanverweis auf das Standard-Pipeline-Objekt zu setzen, damit alle Objekte diesen Zeitplan erben. Wenn die Pipeline über einen Baum mit Zeitplänen verfügt (Zeitpläne innerhalb des Hauptplans), können Benutzer ein übergeordnetes Objekt mit Zeitplänenreferenz erstellen. Weitere Informationen zu optionalen Beispiel-Zeitplankonfigurationen finden Sie unter https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html.	Referenzobjekt, z. B. „schedule“: {"ref“:“ myScheduleId „}

Erforderliche Gruppe (mindestens eine der folgenden ist erforderlich)	Beschreibung	Slot-Typ
runsOn	Geben Sie den Cluster an, auf dem ausgeführt werden soll.	Referenzobjekt, z. B. "runsOn„: {" ref“:“ myResourceId „}
workerGroup	Die Auftragnehmergruppe. Dies wird für Routing-Aufgaben verwendet. Wenn Sie einen `runsOn`-Wert angeben und `workerGroup` vorhanden ist, wird ignoriert.`workerGroup`	String

Optionale Felder	Beschreibung	Slot-Typ
attemptStatus	Der zuletzt gemeldete Status von der Remote-Aktivität.	String
attemptTimeout	Das Timeout für die Fertigstellung der Remote-Arbeit. Wenn diese Option aktiviert ist, kann eine Remote-Aktivität, die nicht innerhalb der festgelegten Startzeit abgeschlossen wird, wiederholt werden.	Intervall
dependsOn	Gibt die Abhängigkeit von einem anderen ausführbaren Objekt an.	Referenzobjekt, z. B. "dependsOn„: {" ref“:“ myActivityId „}
failureAndRerunModus	Beschreibt das Verhalten des Konsumentenknotens, wenn Abhängigkeiten fehlschlagen oder erneut ausgeführt werden.	Aufzählung
filterSql	Ein SQL Hive-Anweisungsfragment, das eine Teilmenge der zu kopierenden DynamoDB- oder Amazon S3 S3-Daten filtert. Der Filter sollte nur Prädikate enthalten und nicht mit einer `WHERE` Klausel beginnen, da er automatisch hinzugefügt wird. AWS Data Pipeline	String
input	Die Eingangsdatenquelle. Dies muss ein `S3DataNode` oder `DynamoDBDataNode` sein. Wenn Sie `DynamoDBNode` verwenden, geben Sie ein `DynamoDBExportDataFormat` an.	Referenzobjekt, z. B. „input“: {"ref“:“ myDataNode Id "}
lateAfterTimeout	Die nach dem Start der Pipeline verstrichene Zeit, innerhalb der das Objekt abgeschlossen werden muss. Sie wird nur ausgelöst, wenn der Zeitplantyp nicht auf eingestellt ist. `ondemand`	Intervall
maxActiveInstances	Die maximale Anzahl gleichzeitiger aktiver Instances einer Komponente. Wiederholungen zählen nicht zur Anzahl der aktiven Instances.	Ganzzahl
maximumRetries	Die maximale Anzahl von Versuchen bei Ausfällen.	Ganzzahl
onFail	Eine Aktion, die ausgeführt werden soll, wenn das aktuelle Objekt fehlschlägt.	Referenzobjekt, z. B. "onFail„: {" ref“:“ myActionId „}
onLateAction	Aktionen, die ausgelöst werden sollen, wenn ein Objekt noch nicht geplant oder noch nicht abgeschlossen wurde.	Referenzobjekt, z. B. "onLateAction„: {" ref“:“ myActionId „}
onSuccess	Eine Aktion, die ausgeführt wird, wenn das aktuelle Objekt erfolgreich ist.	Referenzobjekt, z. B. "onSuccess„: {" ref“:“ myActionId „}
output	Die Eingangsdatenquelle. Wenn die Eingabe `S3DataNode` ist, muss diese auf `DynamoDBDataNode` festgelegt sein. Andernfalls kann dies `S3DataNode` oder `DynamoDBDataNode` sein. Wenn Sie `DynamoDBNode` verwenden, geben Sie ein `DynamoDBExportDataFormat` an.	Referenzobjekt, z. B. „output“: {"ref“:“ myDataNode Id "}
übergeordneter	Das übergeordnetes Objekt des aktuellen Objekts, aus dem Slots übernommen werden.	Referenzobjekt, z. B. „parent“: {"ref“:“ myBaseObject Id "}
pipelineLogUri	Amazon S3URI, z. B. `'s3://BucketName/Key/'` zum Hochladen von Protokollen für die Pipeline.	String
postActivityTaskConfig	Das Post-Activity-Konfigurationsskript, das ausgeführt werden soll. Dies besteht URI aus einem Shell-Skript in Amazon S3 und einer Liste von Argumenten.	Referenzobjekt, z. B. "postActivityTaskConfig“: {"ref“:“ myShellScript ConfigId „}
preActivityTaskConfig	Das Pre-Activity-Konfigurationsskript, das ausgeführt werden soll. Dies besteht URI aus einem Shell-Skript in Amazon S3 und einer Liste von Argumenten.	Referenzobjekt, z. B. "preActivityTaskConfig“: {"ref“:“ myShellScript ConfigId „}
precondition	Definiert optional eine Vorbedingung. Ein Datenknoten wird erst mit "READY" markiert, wenn alle Voraussetzungen erfüllt sind.	Referenzobjekt, z. B. „Vorbedingung“: {"ref“:“ myPreconditionId „}
reportProgressTimeout	Das Timeout für aufeinanderfolgende Aufrufe von `reportProgress` durch Remote-Arbeit. Wenn diese Option aktiviert ist, werden Remote-Aktivitäten, die den Fortschritt für den angegebenen Zeitraum nicht melden, als fehlgeschlagen angesehen und es wird erneut versucht.	Intervall
resizeClusterBeforeWird ausgeführt	Ändern Sie die Größe des Clusters, bevor Sie diese Aktivität ausführen, um DynamoDB-Datenknoten aufzunehmen, die als Eingaben oder Ausgaben angegeben sind. Anmerkung Wenn Ihre Aktivität a entweder `DynamoDBDataNode` als Eingabe- oder Ausgabedatenknoten verwendet und Sie den Wert auf setzen`TRUE`, AWS Data Pipeline beginnt die `resizeClusterBeforeRunning` Verwendung von `m3.xlarge` Instance-Typen. Dadurch wird Ihre Auswahl an Instance-Typen mit `m3.xlarge` überschrieben, wodurch Ihre monatlichen Kosten ansteigen könnten.	Boolesch
resizeClusterMaxInstanzen	Ein Limit für die maximale Anzahl von Instances, die vom Resize-Algorithmus angefordert werden können.	Ganzzahl
retryDelay	Die Zeitüberschreitungsdauer zwischen zwei Wiederholungsversuchen.	Intervall
scheduleType	Mit dem Zeitplantyp können Sie angeben, ob die Objekte in Ihrer Pipeline-Definition am Anfang des Intervalls oder am Ende des Intervalls geplant werden sollen. Zeitreihenstilplanung bedeutet, dass Instances am Ende jedes Intervalls geplant werden und Cron-Stil-Planung bedeutet, dass Instances zu Beginn jedes Intervalls geplant werden. Ein On-Demand-Zeitplan ermöglicht es Ihnen, eine Pipeline einmal pro Aktivierung auszuführen. Dies bedeutet, dass Sie die Pipeline nicht klonen oder neu erstellen müssen, um sie erneut auszuführen. Wenn Sie einen On-Demand-Zeitplan verwenden, muss dieser im Standardobjekt angegeben werden und darf das einzige Objekt sein, das für Objekte in der Pipeline scheduleType angegeben wird. Um On-Demand-Pipelines zu verwenden, rufen Sie den ActivatePipeline Vorgang einfach für jeden nachfolgenden Lauf auf. Die Werte sind: cron, ondemand und timeseries.	Aufzählung

Laufzeitfelder	Beschreibung	Slot-Typ
@activeInstances	Liste der aktuell geplanten aktiven Instance-Objekte.	Referenzobjekt, z. B. "activeInstances„: {" ref“:“ myRunnableObject Id "}
@actualEndTime	Zeitpunkt, zu dem die Ausführung dieses Objekts abgeschlossen wurde.	DateTime
@actualStartTime	Zeitpunkt, zu dem die Ausführung dieses Objekts gestartet wurde.	DateTime
cancellationReason	Das cancellationReason , ob dieses Objekt storniert wurde.	String
@cascadeFailedOn	Beschreibung der Abhängigkeitskette, bei der das Objekt fehlgeschlagen ist.	Referenzobjekt, z. B. "cascadeFailedOn„: {" ref“:“ myRunnableObject Id "}
emrStepLog	EMRAmazon-Schrittprotokolle sind nur bei EMR Aktivitätsversuchen verfügbar.	String
errorId	errorId Wenn dieses Objekt fehlgeschlagen ist.	String
errorMessage	Das ist errorMessage , wenn dieses Objekt fehlgeschlagen ist.	String
errorStackTrace	Die Fehler-Stack-Ablaufverfolgung., wenn dieses Objekt fehlgeschlagen ist.	String
@finishedTime	Der Zeitpunkt, zu der dieses Objekt seine Ausführung beendet hat.	DateTime
hadoopJobLog	Hadoop-Jobprotokolle sind bei Versuchen für EMR basierte Aktivitäten verfügbar.	String
@healthStatus	Der Integritätsstatus des Objekts, der Erfolg oder Misserfolg der letzten Objekt-Instance widerspiegelt, die einen beendeten Zustand erreicht hat.	String
@healthStatusFromInstanceId	Id des Objekts der letzten Instance, das einen beendeten Zustand erreicht hat.	String
@ Zeit healthStatusUpdated	Zeitpunkt, zu dem der Servicestatus beim letzten Mal aktualisiert wurde.	DateTime
hostname	Der Hostname des Clients, der den Aufgabenversuch aufnimmt.	String
@lastDeactivatedTime	Zeitpunkt, zu dem dieses Objekt zuletzt deaktiviert wurde.	DateTime
@ latestCompletedRun Zeit	Zeitpunkt des letzten Laufs, für den die Ausführung abgeschlossen wurde.	DateTime
@latestRunTime	Zeitpunkt des letzten Laufs, für den die Ausführung geplant war.	DateTime
@nextRunTime	Zeitpunkt des Laufs, der als nächstes geplant werden soll	DateTime
reportProgressTime	Der letzte Zeitpunkt, an dem die Remote-Aktivität einen Fortschritt gemeldet hat.	DateTime
@scheduledEndTime	Endzeit für Objekt einplanen.	DateTime
@scheduledStartTime	Startzeit für Objekt einplanen.	DateTime
@Status	Der Status des Objekts.	String
@Version	Pipeline-Version, mit der das Objekt erstellt wurde.	String
@waitingOn	Beschreibung der Liste der Abhängigkeiten, auf die dieses Objekt wartet.	Referenzobjekt, z. B. "waitingOn„: {" ref“:“ myRunnableObject Id "}

Systemfelder	Beschreibung	Slot-Typ
@error	Fehler mit einer Beschreibung des falsch formatierten Objekts.	String
@pipelineId	Id der Pipeline, zu der dieses Objekt gehört.	String
@sphere	Die Sphäre eines Objekts bezeichnet seine Position im Lebenszyklus: Komponentenobjekte ergeben Instance-Objekte, die ein Versuchsobjekt ausführen.	String

Weitere Informationen finden Sie unter:

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

HiveActivity

PigActivity

HiveCopyActivity

Beispiel

Syntax

Anmerkung

Weitere Informationen finden Sie unter: