

AWS Data Pipeline ist für Neukunden nicht mehr verfügbar. Bestandskunden von AWS Data Pipeline können den Service weiterhin wie gewohnt nutzen. [Weitere Informationen](https://aws.amazon.com/blogs/big-data/migrate-workloads-from-aws-data-pipeline/)

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Aktivitäten
<a name="dp-object-activities"></a>

Im Folgenden sind die AWS Data Pipeline Aktivitätsobjekte aufgeführt:

**Topics**
+ [CopyActivity](dp-object-copyactivity.md)
+ [EmrActivity](dp-object-emractivity.md)
+ [HadoopActivity](dp-object-hadoopactivity.md)
+ [HiveActivity](dp-object-hiveactivity.md)
+ [HiveCopyActivity](dp-object-hivecopyactivity.md)
+ [PigActivity](dp-object-pigactivity.md)
+ [RedshiftCopyActivity](dp-object-redshiftcopyactivity.md)
+ [ShellCommandActivity](dp-object-shellcommandactivity.md)
+ [SqlActivity](dp-object-sqlactivity.md)

# CopyActivity
<a name="dp-object-copyactivity"></a>

Kopiert Daten von einem Ort an einen anderen. `CopyActivity`unterstützt [S3 DataNode](dp-object-s3datanode.md) und [SqlDataNode](dp-object-sqldatanode.md) als Eingabe und Ausgabe, und der Kopiervorgang wird normalerweise ausgeführt record-by-record. `CopyActivity`Stellt jedoch eine leistungsstarke Kopie von Amazon S3 zu Amazon S3 bereit, wenn alle folgenden Bedingungen erfüllt sind:
+ Die Eingabe und Ausgabe sind S3 DataNodes
+ Das Feld `dataFormat` ist für Ein- und Ausgabe dasselbe.

Wenn Sie die komprimierten Daten als Eingabe verwenden und dies nicht über as Feld `compression` auf den S3-Datenknoten angeben, kann `CopyActivity` möglicherweise fehlschlagen. In diesem Fall erkennt `CopyActivity` das Ende Datensatzzeichens nicht ordnungsgemäß und der Vorgang schlägt fehl. `CopyActivity`Unterstützt außerdem das Kopieren von einem Verzeichnis in ein anderes Verzeichnis und das Kopieren einer Datei in ein Verzeichnis. Das record-by-record Kopieren erfolgt jedoch, wenn ein Verzeichnis in eine Datei kopiert wird. Schließlich `CopyActivity` unterstützt das Kopieren mehrteiliger Amazon S3 S3-Dateien nicht. 

Bei `CopyActivity` gibt es bestimmte Einschränkungen der CSV-Unterstützung. Wenn Sie ein S3 DataNode als Eingabe für verwenden`CopyActivity`, können Sie nur eine Unix/Linux Variante des CSV-Datendateiformats für die Amazon S3 S3-Eingabe- und Ausgabefelder verwenden. Die Unix/Linux Variante erfordert Folgendes: 
+ Das Trennzeichen muss ein Komma (,) sein.
+ Die Datensätze werden nicht in Anführungszeichen gesetzt.
+ Das Standard-Escape-Zeichen ist ASCII-Wert 92 (Backslash).
+ Das Datensatzende-Identifier ist ASCII-Wert 10 (oder "\$1n").

Windows-basierte Systeme verwenden in der Regel eine andere end-of-record Zeichenfolge: einen Zeilenumbruch und einen Zeilenvorschub zusammen (ASCII-Wert 13 und ASCII-Wert 10). Sie müssen diesen Unterschied mit einem zusätzlichen Mechanismus ausgleichen, z. B. einem Skript zum Ändern der Eingabedaten vor dem Kopieren, um sicherzustellen, dass `CopyActivity` das Datensatzende korrekt erkennt. Andernfalls schlägt `CopyActivity` wiederholt fehl.

Wenn Sie mit `CopyActivity` einen Exportvorgang von einem PostgreSQL-RDS-Objekt in das TSV-Datenformat durchführen, ist das Standard-NULL-Zeichen \$1n.

## Beispiel
<a name="copyactivity-example"></a>

Es folgt ein Beispiel für diesen Objekttyp. Dieses Objekt verweist auf drei andere Objekte, die Sie in derselben Pipeline-Definitionsdatei definieren. `CopyPeriod` ist ein `Schedule`-Objekt und `InputData` und `OutputData` sind Datenknotenobjekte.

```
{
  "id" : "S3ToS3Copy",
  "type" : "CopyActivity",
  "schedule" : { "ref" : "CopyPeriod" },
  "input" : { "ref" : "InputData" },
  "output" : { "ref" : "OutputData" },
  "runsOn" : { "ref" : "MyEc2Resource" }
}
```

## Syntax
<a name="copyactivity-syntax"></a>


****  

| Objektaufruf-Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| schedule | Dieses Objekt wird innerhalb der Ausführung eines Zeitplanintervalls aufgerufen. Benutzer müssen einen Zeitplanverweis auf ein anderes Objekt angeben, um die Abhängigkeitsausführungsreihenfolge für dieses Objekt festzulegen. Benutzer können diese Anforderung erfüllen, indem sie explizit einen Zeitplan für das Objekt festlegen, indem sie beispielsweise „schedule“: \$1"ref“: "„\$1 angeben. DefaultSchedule In den meisten Fällen ist es besser, den Zeitplanverweis auf das Standard-Pipeline-Objekt zu setzen, damit alle Objekte diesen Zeitplan erben. Wenn die Pipeline über einen Baum mit Zeitplänen verfügt (Zeitpläne innerhalb des Hauptplans), können Benutzer ein übergeordnetes Objekt mit Zeitplänenreferenz erstellen. Weitere Informationen zu optionalen Beispiel-Zeitplankonfigurationen finden Sie unter [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html). | Referenzobjekt, z. B. „schedule“: \$1"ref“:“ myScheduleId „\$1 | 


****  

| Erforderliche Gruppe (mindestens eine der folgenden ist erforderlich) | Description | Slot-Typ | 
| --- | --- | --- | 
| runsOn | Die Rechenressource zum Ausführen der Aktivität oder des Befehls. Beispiel: Amazon EC2 Instance oder Amazon EMR-Cluster. | Referenzobjekt, z. B. „runsOn“: \$1"ref“:“ myResourceId „\$1 | 
| workerGroup | Die Auftragnehmergruppe. Dies wird für Routing-Aufgaben verwendet. Wenn Sie einen runsOn-Wert angeben und workerGroup vorhanden ist, wird workerGroup ignoriert. | Zeichenfolge | 

 


****  

| Optionale Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| attemptStatus | Zuletzt gemeldeter Status von der Remote-Aktivität. | Zeichenfolge | 
| attemptTimeout | Timeout für die Remote-Arbeit abgeschlossen. Wenn diese Option aktiviert ist, kann eine Remote-Aktivität, die nicht innerhalb der festgelegten Startzeit abgeschlossen wird, wiederholt werden. | Zeitraum | 
| dependsOn | Angeben der Abhängigkeit von einem anderen ausführbaren Objekt. | Referenzobjekt, z. B. „dependSon“: \$1"ref“:“ myActivityId „\$1 | 
| failureAndRerunModus | Beschreibt das Verhalten des Konsumentenknotens, wenn Abhängigkeiten fehlschlagen oder erneut ausgeführt werden | Aufzählung | 
| input | Die Eingangsdatenquelle. | Referenzobjekt, z. B. „input“: \$1"ref“:“ myDataNode Id "\$1 | 
| lateAfterTimeout | Die nach dem Start der Pipeline verstrichene Zeit, innerhalb der das Objekt abgeschlossen werden muss. Sie wird nur ausgelöst, wenn der Zeitplantyp nicht auf eingestellt ist. ondemand | Zeitraum | 
| maxActiveInstances | Die maximale Anzahl gleichzeitiger aktiver Instances einer Komponente. Wiederholungen zählen nicht zur Anzahl der aktiven Instances. | Ganzzahl | 
| maximumRetries | Maximale Anzahl von Versuchen bei Ausfällen | Ganzzahl | 
| onFail | Eine Aktion, die ausgeführt werden soll, wenn das aktuelle Objekt fehlschlägt. | Referenzobjekt, z. B. „onFail“: \$1"ref“:“ myActionId „\$1 | 
| onLateAction | Aktionen, die ausgelöst werden sollen, wenn ein Objekt noch nicht geplant oder noch nicht abgeschlossen wurde. | Referenzobjekt, z. B. "onLateAction„: \$1" ref“:“ myActionId „\$1 | 
| onSuccess | Eine Aktion, die ausgeführt wird, wenn das aktuelle Objekt erfolgreich ist. | Referenzobjekt, z. B. „onSuccess“: \$1"ref“:“ myActionId „\$1 | 
| output | Die Eingangsdatenquelle. | Referenzobjekt, z. B. „output“: \$1"ref“:“ myDataNode Id "\$1 | 
| übergeordneter | Übergeordnetes Objekt des aktuellen Objekts, aus dem Slots übernommen werden. | Referenzobjekt, z. B. „parent“: \$1"ref“:“ myBaseObject Id "\$1 | 
| pipelineLogUri | Die S3-URI (wie 's3://BucketName/Key/ ') zum Hochladen von Protokollen für die Pipeline. | Zeichenfolge | 
| precondition | Legen Sie optional eine Vorbedingung fest. Ein Datenknoten ist solange nicht als "BEREIT" markiert, bis alle Vorbedingungen erfüllt sind. | Referenzobjekt, z. B. „precondition“: \$1"ref“:“ „\$1 myPreconditionId | 
| reportProgressTimeout | Timeout für aufeinanderfolgende Aufrufe von Remote-Arbeit in reportProgress. Wenn diese Option aktiviert ist, werden Remote-Aktivitäten, die den Fortschritt für den angegebenen Zeitraum nicht melden, als fehlgeschlagen angesehen und es wird erneut versucht. | Zeitraum | 
| retryDelay | Die Zeitüberschreitungsdauer zwischen zwei Wiederholungsversuchen. | Zeitraum | 
| scheduleType | Mit dem Zeitplantyp können Sie angeben, ob die Objekte in Ihrer Pipeline-Definition am Anfang des Intervalls oder am Ende des Intervalls geplant werden sollen. Zeitreihenstilplanung bedeutet, dass Instances am Ende jedes Intervalls geplant werden und Cron-Stil-Planung bedeutet, dass Instances zu Beginn jedes Intervalls geplant werden. Ein On-Demand-Zeitplan ermöglicht es Ihnen, eine Pipeline einmal pro Aktivierung auszuführen. Dies bedeutet, dass Sie die Pipeline nicht klonen oder neu erstellen müssen, um sie erneut auszuführen. Wenn Sie einen On-Demand-Zeitplan verwenden, muss er im Standardobjekt angegeben werden und der einzige für die Objekte in der Pipeline angegebene scheduleType sein. Um On-Demand-Pipelines zu verwenden, rufen Sie den ActivatePipeline Vorgang einfach für jeden nachfolgenden Lauf auf. Die Werte sind: cron, ondemand und timeseries. | Aufzählung | 

 


****  

| Laufzeitfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @activeInstances | Liste der aktuell geplanten aktiven Instance-Objekte. | Referenzobjekt, z. B. „ActiveInstances“: \$1"ref“:“ myRunnableObject Id "\$1 | 
| @actualEndTime | Zeitpunkt, zu dem die Ausführung dieses Objekts abgeschlossen wurde. | DateTime | 
| @actualStartTime | Zeitpunkt, zu dem die Ausführung dieses Objekts gestartet wurde. | DateTime | 
| cancellationReason | Die cancellationReason, wenn dieses Objekt storniert wurde. | Zeichenfolge | 
| @cascadeFailedOn | Beschreibung der Zuständigkeitskette, bei der das Objekt fehlgeschlagen ist. | Referenzobjekt, z. B. "cascadeFailedOn„: \$1" ref“:“ myRunnableObject Id "\$1 | 
| emrStepLog | EMR-Schrittprotokolle nur bei EMR-Aktivitätsversuchen verfügbar | Zeichenfolge | 
| errorId | Die errorId, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorMessage | Die errorMessage, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorStackTrace | Die Fehler-Stack-Ablaufverfolgung., wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| @finishedTime | Der Zeitpunkt, zu der dieses Objekt seine Ausführung beendet hat. | DateTime | 
| hadoopJobLog | Hadoop-Jobprotokolle für Versuche für EMR-basierte Aktivitäten verfügbar. | Zeichenfolge | 
| @healthStatus | Der Integritätsstatus des Objekts, der Erfolg oder Misserfolg der letzten Objekt-Instance widerspiegelt, die einen beendeten Zustand erreicht hat. | Zeichenfolge | 
| @healthStatusFromInstanceId | Id des Objekts der letzten Instance, das einen beendeten Zustand erreicht hat. | Zeichenfolge | 
| @ healthStatusUpdated Zeit | Zeitpunkt, zu dem der Servicestatus beim letzten Mal aktualisiert wurde. | DateTime | 
| hostname | Der Hostname des Clients, der den Aufgabenversuch aufnimmt. | Zeichenfolge | 
| @lastDeactivatedTime | Zeitpunkt, zu dem dieses Objekt zuletzt deaktiviert wurde. | DateTime | 
| @ latestCompletedRun Zeit | Zeitpunkt des letzten Laufs, für den die Ausführung abgeschlossen wurde. | DateTime | 
| @latestRunTime | Zeitpunkt des letzten Laufs, für den die Ausführung geplant war. | DateTime | 
| @nextRunTime | Zeitpunkt des Laufs, der als nächstes geplant werden soll | DateTime | 
| reportProgressTime | Der letzte Zeitpunkt, an dem die Remote-Aktivität einen Fortschritt gemeldet hat. | DateTime | 
| @scheduledEndTime | Endzeit für Objekt einplanen | DateTime | 
| @scheduledStartTime | Startzeit für Objekt einplanen | DateTime | 
| @Status | Der Status des Objekts. | Zeichenfolge | 
| @Version | Pipeline-Version, mit der das Objekt erstellt wurde. | Zeichenfolge | 
| @waitingOn | Beschreibung der Liste der Abhängigkeiten, auf die dieses Objekt wartet. | Referenzobjekt, z. B. „waitingOn“: \$1"ref“:“ myRunnableObject Id "\$1 | 

 


****  

| Systemfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @error | Fehler mit einer Beschreibung des falsch formatierten Objekts | Zeichenfolge | 
| @pipelineId | Id der Pipeline, zu der dieses Objekt gehört | Zeichenfolge | 
| @sphere | Die Kugel eines Objekts bezeichnet seinen Platz im Lebenszyklus: Komponentenobjekte ergeben Instance-Objekte, die Versuchsobjekte ausführen | Zeichenfolge | 

## Weitere Informationen finden Sie unter:
<a name="copyactivity-seealso"></a>
+ [ShellCommandActivity](dp-object-shellcommandactivity.md)
+ [EmrActivity](dp-object-emractivity.md)
+ [Exportieren Sie MySQL-Daten nach Amazon S3 mit AWS Data Pipeline](dp-copydata-mysql.md)

# EmrActivity
<a name="dp-object-emractivity"></a>

 Führt einen EMR-Cluster. 

AWS Data Pipeline verwendet ein anderes Format für Schritte als Amazon EMR; AWS Data Pipeline verwendet beispielsweise kommagetrennte Argumente nach dem JAR-Namen im `EmrActivity` Schrittfeld. Das folgende Beispiel zeigt einen für Amazon EMR formatierten Schritt, gefolgt von seinem AWS Data Pipeline Äquivalent:

```
s3://amzn-s3-demo-bucket/MyWork.jar arg1 arg2 arg3
```

```
"s3://amzn-s3-demo-bucket/MyWork.jar,arg1,arg2,arg3"
```

## Beispiele
<a name="emractivity-example"></a>

Es folgt ein Beispiel für diesen Objekttyp. In diesem Beispiel werden ältere Versionen von Amazon EMR verwendet. Überprüfen Sie die Richtigkeit dieses Beispiels anhand der Version des Amazon EMR-Clusters, die Sie verwenden. 

Dieses Objekt verweist auf drei andere Objekte, die Sie in derselben Pipeline-Definitionsdatei definieren. `MyEmrCluster` ist ein `EmrCluster`-Objekt und `MyS3Input` und `MyS3Output` sind `S3DataNode`-Objekte. 

**Anmerkung**  
In diesem Beispiel können Sie das Feld `step` mit der gewünschten Cluster-Zeichenfolge ersetzen. Hierbei kann es sich u. a. um ein Pig-Skript, ein Hadoop-Streaming-Cluster oder Ihre eigene benutzerdefinierte JAR-Datei mit ihren Parametern handeln.

Hadoop 2.x (AMI 3.x)

```
{
  "id" : "MyEmrActivity",
  "type" : "EmrActivity",
  "runsOn" : { "ref" : "MyEmrCluster" },
  "preStepCommand" : "scp remoteFiles localFiles",
  "step" : ["s3://amzn-s3-demo-bucket/myPath/myStep.jar,firstArg,secondArg,-files,s3://amzn-s3-demo-bucket/myPath/myFile.py,-input,s3://myinputbucket/path,-output,s3://myoutputbucket/path,-mapper,myFile.py,-reducer,reducerName","s3://amzn-s3-demo-bucket/myPath/myotherStep.jar,..."],
  "postStepCommand" : "scp localFiles remoteFiles",
  "input" : { "ref" : "MyS3Input" },
  "output" : { "ref" : "MyS3Output" }
}
```

**Anmerkung**  
Um in einem Schritt Argumente an eine Anwendung zu übergeben, müssen Sie die Region im Pfad des Skripts angeben, wie im folgenden Beispiel gezeigt: Darüber hinaus müssen Sie für die zu übergebenden Argumente möglicherweise ein Escape-Zeichen verwenden. Wenn Sie beispielsweise mit `script-runner.jar` ein Shell-Skript ausführen und Argumente an das Skript übergeben möchten, müssen Sie für die Kommas, die als Trennzeichen dienen, Escape-Zeichen verwenden. Der folgende Schritt-Slot veranschaulicht die entsprechende Vorgehensweise:   

```
"step" : "s3://eu-west-1.elasticmapreduce/libs/script-runner/script-runner.jar,s3://datapipeline/echo.sh,a\\\\,b\\\\,c"
```
Dieser Schritt verwendet `script-runner.jar`, um das Shell-Skript `echo.sh` auszuführen, und übergibt `a`, `b` und `c` als einzelne Argumente an das Skript. Die erste Escape-Zeichen wird vom resultierenden Argument entfernt, weshalb Sie möglicherweise erneut ein Escape-Zeichen verwenden müssen. Wenn Sie beispielsweise `File\.gz` als Argument in JSON verwendet haben, können Sie als Escape-Zeichen `File\\\\.gz` verwenden. Da das erste Escape-Zeichen jedoch verworfen wird, müssen Sie `File\\\\\\\\.gz ` verwenden.

## Syntax
<a name="emractivity-syntax"></a>


****  

| Objektaufruf-Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| schedule | Dieses Objekt wird innerhalb der Ausführung eines Zeitplanintervalls aufgerufen. Sie müssen einen Zeitplanverweis auf ein anderes Objekt angeben, um die Abhängigkeitsausführungsreihenfolge für dieses Objekt festzulegen. Sie können diese Anforderung erfüllen, indem Sie explizit einen Zeitplan für das Objekt festlegen, indem sie beispielsweise "schedule": \$1"ref": "DefaultSchedule"\$1 angeben. In den meisten Fällen ist es besser, den Zeitplanverweis auf das Standard-Pipeline-Objekt zu setzen, damit alle Objekte diesen Zeitplan erben. Wenn die Pipeline über einen Baum mit Zeitplänen verfügt (Zeitpläne innerhalb des Hauptplans), können Sie ein übergeordnetes Objekt mit Zeitplänenreferenz erstellen. Weitere Informationen zu optionalen Beispiel-Zeitplankonfigurationen finden Sie unter [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html). | Referenzobjekt, zum Beispiel „schedule“: \$1"ref“:“ myScheduleId „\$1 | 

 


****  

| Erforderliche Gruppe (mindestens eine der folgenden ist erforderlich) | Description | Slot-Typ | 
| --- | --- | --- | 
| runsOn | Der Amazon EMR-Cluster, auf dem dieser Job ausgeführt wird. | Referenzobjekt, zum Beispiel „runsOn“: \$1"ref“:“ myEmrCluster Id "\$1 | 
| workerGroup | Die Auftragnehmergruppe. Dies wird für Routing-Aufgaben verwendet. Wenn Sie einen runsOn-Wert angeben und workerGroup vorhanden ist, wird ignoriert.workerGroup | Zeichenfolge | 

 


****  

| Optionale Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| attemptStatus | Zuletzt gemeldeter Status von der Remote-Aktivität. | Zeichenfolge | 
| attemptTimeout | Timeout für die Remote-Arbeit abgeschlossen. Wenn diese Option aktiviert ist, kann eine Remote-Aktivität, die nicht innerhalb der festgelegten Startzeit abgeschlossen wird, wiederholt werden. | Zeitraum | 
| dependsOn | Angeben der Abhängigkeit von einem anderen ausführbaren Objekt. | Referenzobjekt, zum Beispiel „dependSon“: \$1"ref“:“ myActivityId „\$1 | 
| failureAndRerunModus | Beschreibt das Verhalten des Konsumentenknotens, wenn Abhängigkeiten fehlschlagen oder erneut ausgeführt werden. | Aufzählung | 
| input | Der Speicherort der Eingabedaten. | Referenzobjekt, zum Beispiel „input“: \$1"ref“:“ myDataNode Id "\$1 | 
| lateAfterTimeout | Die verstrichene Zeit nach dem Start der Pipeline, innerhalb derer das Objekt abgeschlossen werden muss. Sie wird nur ausgelöst, wenn der Zeitplantyp nicht auf eingestellt ist. ondemand | Zeitraum | 
| maxActiveInstances | Die maximale Anzahl gleichzeitiger aktiver Instances einer Komponente. Wiederholungen zählen nicht zur Anzahl der aktiven Instances. | Ganzzahl | 
| maximumRetries | Die maximale Anzahl von Versuchen bei Ausfällen. | Ganzzahl | 
| onFail | Eine Aktion, die ausgeführt werden soll, wenn das aktuelle Objekt fehlschlägt. | Referenzobjekt, zum Beispiel „onFail“: \$1"ref“:“ myActionId „\$1 | 
| onLateAction | Aktionen, die ausgelöst werden sollen, wenn ein Objekt noch nicht geplant oder noch nicht abgeschlossen wurde. | Referenzobjekt, zum Beispiel "onLateAction„: \$1" ref“:“ myActionId „\$1 | 
| onSuccess | Eine Aktion, die ausgeführt wird, wenn das aktuelle Objekt erfolgreich ist. | Referenzobjekt, zum Beispiel „onSuccess“: \$1"ref“:“ myActionId „\$1 | 
| output | Der Speicherort der Ausgabedaten.  | Referenzobjekt, zum Beispiel „output“: \$1"ref“:“ myDataNode Id "\$1 | 
| übergeordneter | Das übergeordnetes Objekt des aktuellen Objekts, aus dem Slots übernommen werden. | Referenzobjekt, zum Beispiel „parent“: \$1"ref“:“ myBaseObject Id "\$1 | 
| pipelineLogUri | Die Amazon S3 S3-URI, z. B. 's3://BucketName/Prefix/ 'zum Hochladen von Protokollen für die Pipeline. | Zeichenfolge | 
| postStepCommand | Shell-Skripts, die nach Abschluss aller Schritte ausgeführt werden. Wenn Sie mehrere Skripts angeben möchten (maximal 255), fügen Sie die entsprechende Anzahl von postStepCommand-Feldern hinzu. | Zeichenfolge | 
| precondition | Legen Sie optional eine Vorbedingung fest. Ein Datenknoten ist solange nicht als "BEREIT" markiert, bis alle Vorbedingungen erfüllt sind. | Referenzobjekt, zum Beispiel „precondition“: \$1"ref“:“ „\$1 myPreconditionId | 
| preStepCommand | Shell-Skripts, die vor allen Schritten ausgeführt werden. Wenn Sie mehrere Skripts angeben möchten (maximal 255), fügen Sie die entsprechende Anzahl von preStepCommand-Feldern hinzu. | Zeichenfolge | 
| reportProgressTimeout | Das Timeout für aufeinanderfolgende Aufrufe von reportProgress durch Remote-Arbeit. Wenn diese Option aktiviert ist, werden Remote-Aktivitäten, die den Fortschritt für den angegebenen Zeitraum nicht melden, als fehlgeschlagen angesehen und es wird erneut versucht. | Zeitraum | 
| resizeClusterBeforeWird ausgeführt |  Ändern Sie die Größe des Clusters, bevor Sie diese Aktivität ausführen, um DynamoDB-Tabellen aufzunehmen, die als Eingaben oder Ausgaben angegeben sind.   Wenn Sie `EmrActivity` a entweder `DynamoDBDataNode` als Eingabe- oder Ausgabedatenknoten verwenden und den Wert auf setzen`TRUE`, AWS Data Pipeline beginnen Sie mit der `resizeClusterBeforeRunning` Verwendung von `m3.xlarge` Instance-Typen. Dadurch wird Ihre Auswahl an Instance-Typen mit `m3.xlarge` überschrieben, wodurch Ihre monatlichen Kosten ansteigen könnten.   | Boolesch | 
| resizeClusterMaxInstanzen | Ein Limit für die maximale Anzahl von Instances, die vom Resize-Algorithmus angefordert werden können. | Ganzzahl | 
| retryDelay | Die Zeitüberschreitungsdauer zwischen zwei Wiederholungsversuchen. | Zeitraum | 
| scheduleType | Mit dem Zeitplantyp können Sie angeben, ob die Objekte in Ihrer Pipeline-Definition am Anfang des Intervalls oder am Ende des Intervalls geplant werden sollen. Werte sind cron, ondemand und timeseries. Die timeseries-Planung bedeutet, dass Instances am Ende jedes Intervalls geplant sind. Die cron-Planung bedeutet, dass Instances am Anfang jedes Intervalls geplant sind. Ein ondemand-Zeitplan ermöglicht es Ihnen, eine Pipeline einmal pro Aktivierung auszuführen. Sie müssen die Pipeline nicht klonen oder neu erstellen, um sie erneut auszuführen. Wenn Sie einen ondemand-Zeitplan verwenden, muss er im Standardobjekt angegeben werden und der einzige für die Objekte in der Pipeline angegebene scheduleType sein. Um ondemand-Pipelines zu verwenden, rufen Sie einfach den ActivatePipeline-Vorgang für jeden nachfolgenden Lauf auf.  | Aufzählung | 
| Schritt | Einzelne oder mehrere vom Cluster auszuführende Schritte. Wenn Sie mehrere Schritte angeben möchten (maximal 255), fügen Sie die entsprechende Anzahl von step-Feldern hinzu. Verwenden Sie durch Komma getrennte Argumente nach dem JAR-Namen, z. B. "s3://amzn-s3-demo-bucket/MyWork.jar,arg1,arg2,arg3". | Zeichenfolge | 

 


****  

| Laufzeitfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @activeInstances | Liste der aktuell geplanten aktiven Instance-Objekte. | Referenzobjekt, z. B. „activeInstances“: \$1"ref“:“ myRunnableObject Id "\$1 | 
| @actualEndTime | Zeitpunkt, zu dem die Ausführung dieses Objekts abgeschlossen wurde. | DateTime | 
| @actualStartTime | Zeitpunkt, zu dem die Ausführung dieses Objekts gestartet wurde. | DateTime | 
| cancellationReason | Die cancellationReason, wenn dieses Objekt storniert wurde. | Zeichenfolge | 
| @cascadeFailedOn | Beschreibung der Abhängigkeitskette, bei der das Objekt fehlgeschlagen ist. | Referenzobjekt, zum Beispiel "cascadeFailedOn„: \$1" ref“:“ myRunnableObject Id "\$1 | 
| emrStepLog | Amazon EMR-Schrittprotokolle sind nur bei EMR-Aktivitätsversuchen verfügbar | Zeichenfolge | 
| errorId | Die errorId, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorMessage | Die errorMessage, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorStackTrace | Die Fehler-Stack-Ablaufverfolgung., wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| @finishedTime | Der Zeitpunkt, zu der dieses Objekt seine Ausführung beendet hat. | DateTime | 
| hadoopJobLog | Hadoop-Jobprotokolle für Versuche für EMR-basierte Aktivitäten verfügbar. | Zeichenfolge | 
| @healthStatus | Der Integritätsstatus des Objekts, der Erfolg oder Misserfolg der letzten Objekt-Instance widerspiegelt, die einen beendeten Zustand erreicht hat. | Zeichenfolge | 
| @healthStatusFromInstanceId | Id des Objekts der letzten Instance, das einen beendeten Zustand erreicht hat. | Zeichenfolge | 
| @ Zeit healthStatusUpdated | Zeitpunkt, zu dem der Servicestatus beim letzten Mal aktualisiert wurde. | DateTime | 
| hostname | Der Hostname des Clients, der den Aufgabenversuch aufnimmt. | Zeichenfolge | 
| @lastDeactivatedTime | Zeitpunkt, zu dem dieses Objekt zuletzt deaktiviert wurde. | DateTime | 
| @ latestCompletedRun Zeit | Zeitpunkt des letzten Laufs, für den die Ausführung abgeschlossen wurde. | DateTime | 
| @latestRunTime | Zeitpunkt des letzten Laufs, für den die Ausführung geplant war. | DateTime | 
| @nextRunTime | Zeitpunkt des Laufs, der als nächstes geplant werden soll | DateTime | 
| reportProgressTime | Der letzte Zeitpunkt, an dem die Remote-Aktivität einen Fortschritt gemeldet hat. | DateTime | 
| @scheduledEndTime | Endzeit für das Objekt einplanen. | DateTime | 
| @scheduledStartTime | Startzeit für das Objekt einplanen. | DateTime | 
| @Status | Der Status des Objekts. | Zeichenfolge | 
| @Version | Pipeline-Version, mit der das Objekt erstellt wurde | Zeichenfolge | 
| @waitingOn | Beschreibung der Liste der Abhängigkeiten, auf die dieses Objekt wartet. | Referenzobjekt, zum Beispiel „WaitingOn“: \$1"ref“:“ myRunnableObject Id "\$1 | 

 


****  

| Systemfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @error | Fehler mit einer Beschreibung des falsch formatierten Objekts. | Zeichenfolge | 
| @pipelineId | ID der Pipeline, zu der dieses Objekt gehört. | Zeichenfolge | 
| @sphere | Die Kugel eines Objekts bezeichnet seinen Platz im Lebenszyklus: Komponentenobjekte ergeben Instance-Objekte, die Versuchsobjekte ausführen. | Zeichenfolge | 

## Weitere Informationen finden Sie unter:
<a name="emractivity-seealso"></a>
+ [ShellCommandActivity](dp-object-shellcommandactivity.md)
+ [CopyActivity](dp-object-copyactivity.md)
+ [EmrCluster](dp-object-emrcluster.md)

# HadoopActivity
<a name="dp-object-hadoopactivity"></a>

 Führt einen MapReduce Job auf einem Cluster aus. Bei dem Cluster kann es sich um einen EMR-Cluster handeln, der von AWS Data Pipeline oder einer anderen Ressource verwaltet wird, wenn Sie ihn verwenden TaskRunner. Verwenden Sie diese Option, HadoopActivity wenn Sie parallel arbeiten möchten. Auf diese Weise können Sie die Planungsressourcen des YARN-Frameworks oder des MapReduce Resource Negotiators in Hadoop 1 verwenden. Wenn Sie die Arbeit sequenziell mit der Amazon EMR Step-Aktion ausführen möchten, können Sie dies trotzdem verwenden. [EmrActivity](dp-object-emractivity.md)

## Beispiele
<a name="hadoopactivity-example"></a>

**HadoopActivity unter Verwendung eines EMR-Clusters, verwaltet von AWS Data Pipeline**  
Das folgende HadoopActivity Objekt verwendet eine EmrCluster Ressource, um ein Programm auszuführen:

```
 {
   "name": "MyHadoopActivity",
   "schedule": {"ref": "ResourcePeriod"},
   "runsOn": {"ref": “MyEmrCluster”},
   "type": "HadoopActivity",
   "preActivityTaskConfig":{"ref":"preTaskScriptConfig”},   
   "jarUri": "/home/hadoop/contrib/streaming/hadoop-streaming.jar",
   "argument": [
     "-files",
     “s3://elasticmapreduce/samples/wordcount/wordSplitter.py“,
     "-mapper",
     "wordSplitter.py",
     "-reducer",
     "aggregate",
     "-input",
     "s3://elasticmapreduce/samples/wordcount/input/",
     "-output",
     “s3://amzn-s3-demo-bucket/MyHadoopActivity/#{@pipelineId}/#{format(@scheduledStartTime,'YYYY-MM-dd')}"
   ],
   "maximumRetries": "0",
   "postActivityTaskConfig":{"ref":"postTaskScriptConfig”},
   "hadoopQueue" : “high”
 }
```

Hier ist das entsprechende*MyEmrCluster*, das die FairScheduler und -Warteschlangen in YARN für Hadoop 2-basiert konfiguriert: AMIs

```
{
  "id" : "MyEmrCluster",
  "type" : "EmrCluster",
   "hadoopSchedulerType" : "PARALLEL_FAIR_SCHEDULING",
  “amiVersion” : “3.7.0”,
  "bootstrapAction" : ["s3://Region.elasticmapreduce/bootstrap-actions/configure-hadoop,-z,yarn.scheduler.capacity.root.queues=low\,high\,default,-z,yarn.scheduler.capacity.root.high.capacity=50,-z,yarn.scheduler.capacity.root.low.capacity=10,-z,yarn.scheduler.capacity.root.default.capacity=30”]
}
```

Dies ist der, den EmrCluster Sie zur Konfiguration FairScheduler in Hadoop 1 verwenden:

```
{
      "id": "MyEmrCluster",
      "type": "EmrCluster",    
      "hadoopSchedulerType": "PARALLEL_FAIR_SCHEDULING",
      "amiVersion": "2.4.8",
      "bootstrapAction": "s3://Region.elasticmapreduce/bootstrap-actions/configure-hadoop,-m,mapred.queue.names=low\\\\,high\\\\,default,-m,mapred.fairscheduler.poolnameproperty=mapred.job.queue.name"
          }
```

Die folgenden Konfigurationen EmrCluster basieren auf CapacityScheduler Hadoop 2: AMIs

```
{
      "id": "MyEmrCluster",
      "type": "EmrCluster",
      "hadoopSchedulerType": "PARALLEL_CAPACITY_SCHEDULING",
      "amiVersion": "3.7.0",
      "bootstrapAction": "s3://Region.elasticmapreduce/bootstrap-actions/configure-hadoop,-z,yarn.scheduler.capacity.root.queues=low\\\\,high,-z,yarn.scheduler.capacity.root.high.capacity=40,-z,yarn.scheduler.capacity.root.low.capacity=60"
    }
```

**HadoopActivity mit einem vorhandenen EMR-Cluster**  
In diesem Beispiel verwenden Sie workergroups und a, TaskRunner um ein Programm auf einem vorhandenen EMR-Cluster auszuführen. Die folgende Pipeline-Definition dient dazu: HadoopActivity 
+ Führen Sie ein MapReduce Programm nur auf *myWorkerGroup* Ressourcen aus. Weitere Informationen zu Worker-Gruppen finden Sie unter [Arbeiten an vorhandenen Ressourcen mit Task Runner ausführen](dp-how-task-runner-user-managed.md).
+ Führen Sie eine preActivityTask Config und eine postActivityTask Config aus

```
{
  "objects": [
    {
      "argument": [
        "-files",
        "s3://elasticmapreduce/samples/wordcount/wordSplitter.py",
        "-mapper",
        "wordSplitter.py",
        "-reducer",
        "aggregate",
        "-input",
        "s3://elasticmapreduce/samples/wordcount/input/",
        "-output",
        "s3://amzn-s3-demo-bucket/MyHadoopActivity/#{@pipelineId}/#{format(@scheduledStartTime,'YYYY-MM-dd')}"
      ],
      "id": "MyHadoopActivity",
      "jarUri": "/home/hadoop/contrib/streaming/hadoop-streaming.jar",
      "name": "MyHadoopActivity",
      "type": "HadoopActivity"
    },
    {
      "id": "SchedulePeriod",
      "startDateTime": "start_datetime",
      "name": "SchedulePeriod",
      "period": "1 day",
      "type": "Schedule",
      "endDateTime": "end_datetime"
    },
    {
      "id": "ShellScriptConfig",
      "scriptUri": "s3://amzn-s3-demo-bucket/scripts/preTaskScript.sh",
      "name": "preTaskScriptConfig",
      "scriptArgument": [
        "test",
        "argument"
      ],
      "type": "ShellScriptConfig"
    },
    {
      "id": "ShellScriptConfig",
      "scriptUri": "s3://amzn-s3-demo-bucket/scripts/postTaskScript.sh",
      "name": "postTaskScriptConfig",
      "scriptArgument": [
        "test",
        "argument"
      ],
      "type": "ShellScriptConfig"
    },
    {
      "id": "Default",
      "scheduleType": "cron",
      "schedule": {
        "ref": "SchedulePeriod"
      },
      "name": "Default",
      "pipelineLogUri": "s3://amzn-s3-demo-bucket/logs/2015-05-22T18:02:00.343Z642f3fe415",
      "maximumRetries": "0",    
      "workerGroup": "myWorkerGroup",
      "preActivityTaskConfig": {
        "ref": "preTaskScriptConfig"
      },
      "postActivityTaskConfig": {
        "ref": "postTaskScriptConfig"
      }    
    }
  ] 
}
```

## Syntax
<a name="hadoopactivity-syntax"></a>


****  

| Pflichtfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| jarUri | Speicherort einer JAR in Amazon S3 oder im lokalen Dateisystem des Clusters, mit dem ausgeführt werden soll HadoopActivity. | Zeichenfolge | 

 


****  

| Objektaufruf-Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| schedule | Dieses Objekt wird innerhalb der Ausführung eines Zeitplanintervalls aufgerufen. Benutzer müssen einen Zeitplanverweis auf ein anderes Objekt angeben, um die Abhängigkeitsausführungsreihenfolge für dieses Objekt festzulegen. Benutzer können diese Anforderung erfüllen, indem sie explizit einen Zeitplan für das Objekt festlegen, z. B. indem sie „schedule“: \$1"ref“: "DefaultSchedule„\$1 angeben. In den meisten Fällen ist es besser, den Zeitplanverweis auf das Standard-Pipeline-Objekt zu setzen, damit alle Objekte diesen Zeitplan erben. Wenn die Pipeline über einen Baum mit Zeitplänen verfügt (Zeitpläne innerhalb des Hauptplans), können Benutzer ein übergeordnetes Objekt mit Zeitplänenreferenz erstellen. Weitere Informationen zu optionalen Beispiel-Zeitplankonfigurationen finden Sie unter [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html). | Referenzobjekt, z. B. „schedule“: \$1"ref“:“ myScheduleId „\$1 | 

 


****  

| Erforderliche Gruppe (mindestens eine der folgenden ist erforderlich) | Description | Slot-Typ | 
| --- | --- | --- | 
| runsOn | EMR-Cluster, auf dem dieser Auftrag ausgeführt wird. | Referenzobjekt, z. B. „runsOn“: \$1"ref“:“ myEmrCluster Id "\$1 | 
| workerGroup | Die Auftragnehmergruppe. Dies wird für Routing-Aufgaben verwendet. Wenn Sie einen runsOn-Wert angeben und workerGroup vorhanden ist, wird workerGroup ignoriert. | Zeichenfolge | 

 


****  

| Optionale Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| argument | Argumente, die an die JAR-Dateien übergeben werden. | Zeichenfolge | 
| attemptStatus | Zuletzt gemeldeter Status von der Remote-Aktivität. | Zeichenfolge | 
| attemptTimeout | Timeout für die Remote-Arbeit abgeschlossen. Wenn diese Option aktiviert ist, kann eine Remote-Aktivität, die nicht innerhalb der festgelegten Startzeit abgeschlossen wird, wiederholt werden. | Zeitraum | 
| dependsOn | Angeben der Abhängigkeit von einem anderen ausführbaren Objekt. | Referenzobjekt, z. B. „dependSon“: \$1"ref“:“ myActivityId „\$1 | 
| failureAndRerunModus | Beschreibt das Verhalten des Konsumentenknotens, wenn Abhängigkeiten fehlschlagen oder erneut ausgeführt werden | Aufzählung | 
| hadoopQueue | Der Name der Hadoop-Scheduler-Warteschlange, an die die Aktivität übergeben wird. | Zeichenfolge | 
| input | Speicherort der Eingabedaten. | Referenzobjekt, z. B. „input“: \$1"ref“:“ myDataNode Id "\$1 | 
| lateAfterTimeout | Die nach dem Start der Pipeline verstrichene Zeit, innerhalb der das Objekt abgeschlossen werden muss. Sie wird nur ausgelöst, wenn der Zeitplantyp nicht auf eingestellt ist. ondemand | Zeitraum | 
| mainClass | Die Hauptklasse der JAR, mit der Sie die Ausführung ausführen HadoopActivity. | Zeichenfolge | 
| maxActiveInstances | Die maximale Anzahl gleichzeitiger aktiver Instances einer Komponente. Wiederholungen zählen nicht zur Anzahl der aktiven Instances. | Ganzzahl | 
| maximumRetries | Maximale Anzahl von Versuchen bei Ausfällen | Ganzzahl | 
| onFail | Eine Aktion, die ausgeführt werden soll, wenn das aktuelle Objekt fehlschlägt. | Referenzobjekt, z. B. „onFail“: \$1"ref“:“ myActionId „\$1 | 
| onLateAction | Aktionen, die ausgelöst werden sollen, wenn ein Objekt noch nicht geplant oder noch nicht abgeschlossen wurde. | Referenzobjekt, z. B. "onLateAction„: \$1" ref“:“ myActionId „\$1 | 
| onSuccess | Eine Aktion, die ausgeführt wird, wenn das aktuelle Objekt erfolgreich ist. | Referenzobjekt, z. B. „onSuccess“: \$1"ref“:“ myActionId „\$1 | 
| output | Speicherort der Ausgabedaten. | Referenzobjekt, z. B. „output“: \$1"ref“:“ myDataNode Id "\$1 | 
| übergeordneter | Übergeordnetes Objekt des aktuellen Objekts, aus dem Slots übernommen werden. | Referenzobjekt, z. B. „parent“: \$1"ref“:“ myBaseObject Id "\$1 | 
| pipelineLogUri | Die S3-URI (wie 's3://BucketName/Key/ ') zum Hochladen von Protokollen für die Pipeline. | Zeichenfolge | 
| postActivityTaskConfig | Post-Activity-Konfigurationsskript, das ausgeführt werden soll. Dieses besteht aus einer URI des Shell-Skripts in Amazon S3 und einer Liste von Argumenten. | Referenzobjekt, z. B. "postActivityTaskConfig“: \$1"ref“:“ myShellScript ConfigId „\$1 | 
| preActivityTaskConfig | Pre-Activity-Konfigurationsskript, das ausgeführt werden soll. Dieses besteht aus einer URI des Shell-Skripts in Amazon S3 und einer Liste von Argumenten. | Referenzobjekt, z. B. "preActivityTaskConfig“: \$1"ref“:“ myShellScript ConfigId „\$1 | 
| precondition | Legen Sie optional eine Vorbedingung fest. Ein Datenknoten ist solange nicht als "BEREIT" markiert, bis alle Vorbedingungen erfüllt sind. | Referenzobjekt, z. B. „Vorbedingung“: \$1"ref“:“ myPreconditionId „\$1 | 
| reportProgressTimeout | Timeout für aufeinanderfolgende Aufrufe von Remote-Arbeit in reportProgress. Wenn diese Option aktiviert ist, werden Remote-Aktivitäten, die den Fortschritt für den angegebenen Zeitraum nicht melden, als fehlgeschlagen angesehen und es wird erneut versucht. | Zeitraum | 
| retryDelay | Die Zeitüberschreitungsdauer zwischen zwei Wiederholungsversuchen. | Zeitraum | 
| scheduleType | Mit dem Zeitplantyp können Sie angeben, ob die Objekte in Ihrer Pipeline-Definition am Anfang des Intervalls oder am Ende des Intervalls geplant werden sollen. Zeitreihenstilplanung bedeutet, dass Instances am Ende jedes Intervalls geplant werden und Cron-Stil-Planung bedeutet, dass Instances zu Beginn jedes Intervalls geplant werden. Ein On-Demand-Zeitplan ermöglicht es Ihnen, eine Pipeline einmal pro Aktivierung auszuführen. Dies bedeutet, dass Sie die Pipeline nicht klonen oder neu erstellen müssen, um sie erneut auszuführen. Wenn Sie einen On-Demand-Zeitplan verwenden, muss er im Standardobjekt angegeben werden und der einzige für die Objekte in der Pipeline angegebene scheduleType sein. Um On-Demand-Pipelines zu verwenden, rufen Sie den ActivatePipeline Vorgang einfach für jeden nachfolgenden Lauf auf. Die Werte sind: cron, ondemand und timeseries. | Aufzählung | 

 


****  

| Laufzeitfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @activeInstances | Liste der aktuell geplanten aktiven Instance-Objekte. | Referenzobjekt, z. B. „ActiveInstances“: \$1"ref“:“ myRunnableObject Id "\$1 | 
| @actualEndTime | Zeitpunkt, zu dem die Ausführung dieses Objekts abgeschlossen wurde. | DateTime | 
| @actualStartTime | Zeitpunkt, zu dem die Ausführung dieses Objekts gestartet wurde. | DateTime | 
| cancellationReason | Die cancellationReason, wenn dieses Objekt storniert wurde. | Zeichenfolge | 
| @cascadeFailedOn | Beschreibung der Abhängigkeitskette, bei der das Objekt fehlgeschlagen ist. | Referenzobjekt, z. B. "cascadeFailedOn„: \$1" ref“:“ myRunnableObject Id "\$1 | 
| emrStepLog | EMR-Schrittprotokolle nur bei EMR-Aktivitätsversuchen verfügbar | Zeichenfolge | 
| errorId | Die errorId, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorMessage | Die errorMessage, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorStackTrace | Die Fehler-Stack-Ablaufverfolgung., wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| @finishedTime | Der Zeitpunkt, zu der dieses Objekt seine Ausführung beendet hat. | DateTime | 
| hadoopJobLog | Hadoop-Jobprotokolle für Versuche für EMR-basierte Aktivitäten verfügbar. | Zeichenfolge | 
| @healthStatus | Der Integritätsstatus des Objekts, der Erfolg oder Misserfolg der letzten Objekt-Instance widerspiegelt, die einen beendeten Zustand erreicht hat. | Zeichenfolge | 
| @healthStatusFromInstanceId | Id des Objekts der letzten Instance, das einen beendeten Zustand erreicht hat. | Zeichenfolge | 
| @ healthStatusUpdated Zeit | Zeitpunkt, zu dem der Servicestatus beim letzten Mal aktualisiert wurde. | DateTime | 
| hostname | Der Hostname des Clients, der den Aufgabenversuch aufnimmt. | Zeichenfolge | 
| @lastDeactivatedTime | Zeitpunkt, zu dem dieses Objekt zuletzt deaktiviert wurde. | DateTime | 
| @ latestCompletedRun Zeit | Zeitpunkt des letzten Laufs, für den die Ausführung abgeschlossen wurde. | DateTime | 
| @latestRunTime | Zeitpunkt des letzten Laufs, für den die Ausführung geplant war. | DateTime | 
| @nextRunTime | Zeitpunkt des Laufs, der als nächstes geplant werden soll | DateTime | 
| reportProgressTime | Der letzte Zeitpunkt, an dem die Remote-Aktivität einen Fortschritt gemeldet hat. | DateTime | 
| @scheduledEndTime | Endzeit für Objekt einplanen | DateTime | 
| @scheduledStartTime | Startzeit für Objekt einplanen | DateTime | 
| @Status | Der Status des Objekts. | Zeichenfolge | 
| @Version | Pipeline-Version, mit der das Objekt erstellt wurde. | Zeichenfolge | 
| @waitingOn | Beschreibung der Liste der Abhängigkeiten, auf die dieses Objekt wartet. | Referenzobjekt, z. B. „waitingOn“: \$1"ref“:“ myRunnableObject Id "\$1 | 

 


****  

| Systemfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @error | Fehler mit einer Beschreibung des falsch formatierten Objekts. | Zeichenfolge | 
| @pipelineId | Id der Pipeline, zu der dieses Objekt gehört. | Zeichenfolge | 
| @sphere | Die Kugel eines Objekts bezeichnet seinen Platz im Lebenszyklus: Komponentenobjekte ergeben Instance-Objekte, die Versuchsobjekte ausführen. | Zeichenfolge | 

## Weitere Informationen finden Sie unter:
<a name="hadoopactivity-seealso"></a>
+ [ShellCommandActivity](dp-object-shellcommandactivity.md)
+ [CopyActivity](dp-object-copyactivity.md)
+ [EmrCluster](dp-object-emrcluster.md)

# HiveActivity
<a name="dp-object-hiveactivity"></a>

Führt eine Hive-Abfrage auf einem EMR-Cluster aus. `HiveActivity`erleichtert die Einrichtung einer Amazon EMR-Aktivität und erstellt automatisch Hive-Tabellen auf der Grundlage von Eingabedaten, die entweder von Amazon S3 oder Amazon RDS stammen. Sie müssen lediglich den HiveQL angeben, der auf den Quelldaten ausgeführt werden soll. AWS Data Pipeline erstellt automatisch Hive-Tabellen mit `${input1}``${input2}`, usw. auf der Grundlage der Eingabefelder im Objekt. `HiveActivity` 

Für Amazon S3 S3-Eingaben wird das `dataFormat` Feld verwendet, um die Hive-Spaltennamen zu erstellen. 

Bei MySQL-Eingaben (Amazon RDS) werden die Spaltennamen für die SQL-Abfrage verwendet, um die Hive-Spaltennamen zu erstellen.

**Anmerkung**  
Diese Aktivität verwendet den [CSV-Serde](https://cwiki.apache.org/confluence/display/Hive/CSV+Serde) von Hive.

## Beispiel
<a name="hiveactivity-example"></a>

Es folgt ein Beispiel für diesen Objekttyp. Dieses Objekt verweist auf drei andere Objekte, die Sie in derselben Pipeline-Definitionsdatei definieren. `MySchedule` ist ein `Schedule`-Objekt und `MyS3Input` und `MyS3Output` sind Datenknotenobjekte.

```
{
  "name" : "ProcessLogData",
  "id" : "MyHiveActivity",
  "type" : "HiveActivity",
  "schedule" : { "ref": "MySchedule" },
  "hiveScript" : "INSERT OVERWRITE TABLE ${output1} select host,user,time,request,status,size from ${input1};",
  "input" : { "ref": "MyS3Input" },
  "output" : { "ref": "MyS3Output" },
  "runsOn" : { "ref": "MyEmrCluster" }
}
```

## Syntax
<a name="hiveactivity-syntax"></a>


****  

| Objektaufruf-Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| schedule | Dieses Objekt wird innerhalb der Ausführung eines Zeitplanintervalls aufgerufen. Sie müssen einen Zeitplanverweis auf ein anderes Objekt angeben, um die Abhängigkeitsausführungsreihenfolge für dieses Objekt festzulegen. Sie können diese Anforderung erfüllen, indem Sie explizit einen Zeitplan für das Objekt festlegen, indem Sie beispielsweise „schedule“: \$1"ref“: "DefaultSchedule„\$1 angeben. In den meisten Fällen ist es besser, den Zeitplanverweis auf das Standard-Pipeline-Objekt zu setzen, damit alle Objekte diesen Zeitplan erben. Wenn die Pipeline über einen Baum mit Zeitplänen verfügt (Zeitpläne innerhalb des Hauptplans), können Sie ein übergeordnetes Objekt mit Zeitplänenreferenz erstellen. Weitere Informationen zu optionalen Beispiel-Zeitplankonfigurationen finden Sie unter [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html). | Referenzobjekt, z. B. „schedule“: \$1"ref“:“ myScheduleId „\$1 | 

 


****  

| Erforderliche Gruppe (mindestens eine der folgenden ist erforderlich) | Description | Slot-Typ | 
| --- | --- | --- | 
| hiveScript | Das auszuführende Hive-Skript. | Zeichenfolge | 
| scriptUri | Der Speicherort des auszuführenden Hive-Skripts (z. B. s3://scriptLocation). | Zeichenfolge | 

 


****  

| Erforderliche Gruppe | Description | Slot-Typ | 
| --- | --- | --- | 
| runsOn | Der EMR-Cluster, auf dem diese HiveActivity ausgeführt wird | Referenzobjekt, z. B. „runsOn“: \$1"ref“:“ myEmrCluster Id "\$1 | 
| workerGroup | Die Auftragnehmergruppe. Dies wird für Routing-Aufgaben verwendet. Wenn Sie einen runsOn-Wert angeben und workerGroup vorhanden ist, wird ignoriert.workerGroup | Zeichenfolge | 
| input | Die Eingangsdatenquelle. | Referenzobjekt, z. B. „input“: \$1"ref“:“ myDataNode Id "\$1 | 
| output | Die Eingangsdatenquelle. | Referenzobjekt, z. B. „output“: \$1"ref“:“ myDataNode Id "\$1 | 

 


****  

| Optionale Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| attemptStatus | Zuletzt gemeldeter Status von der Remote-Aktivität. | Zeichenfolge | 
| attemptTimeout | Timeout für die Remote-Arbeit abgeschlossen. Wenn diese Option aktiviert ist, kann eine Remote-Aktivität, die nicht innerhalb der festgelegten Startzeit abgeschlossen wird, wiederholt werden. | Zeitraum | 
| dependsOn | Angeben der Abhängigkeit von einem anderen ausführbaren Objekt. | Referenzobjekt, z. B. „dependSon“: \$1"ref“:“ myActivityId „\$1 | 
| failureAndRerunModus | Beschreibt das Verhalten des Konsumentenknotens, wenn Abhängigkeiten fehlschlagen oder erneut ausgeführt werden. | Aufzählung | 
| hadoopQueue | Der Name der Hadoop-Scheduler-Warteschlange, in der der Auftrag übermittelt wird. | Zeichenfolge | 
| lateAfterTimeout | Die nach dem Start der Pipeline verstrichene Zeit, innerhalb der das Objekt abgeschlossen werden muss. Sie wird nur ausgelöst, wenn der Zeitplantyp nicht auf eingestellt ist. ondemand | Zeitraum | 
| maxActiveInstances | Die maximale Anzahl gleichzeitiger aktiver Instances einer Komponente. Wiederholungen zählen nicht zur Anzahl der aktiven Instances. | Ganzzahl | 
| maximumRetries | Die maximale Anzahl von Versuchen bei Ausfällen. | Ganzzahl | 
| onFail | Eine Aktion, die ausgeführt werden soll, wenn das aktuelle Objekt fehlschlägt. | Referenzobjekt, z. B. „onFail“: \$1"ref“:“ myActionId „\$1 | 
| onLateAction | Aktionen, die ausgelöst werden sollen, wenn ein Objekt noch nicht geplant oder noch nicht abgeschlossen wurde. | Referenzobjekt, z. B. "onLateAction„: \$1" ref“:“ myActionId „\$1 | 
| onSuccess | Eine Aktion, die ausgeführt wird, wenn das aktuelle Objekt erfolgreich ist. | Referenzobjekt, z. B. „onSuccess“: \$1"ref“:“ myActionId „\$1 | 
| übergeordneter | Übergeordnetes Objekt des aktuellen Objekts, aus dem Slots übernommen werden. | Referenzobjekt, z. B. „parent“: \$1"ref“:“ myBaseObject Id "\$1 | 
| pipelineLogUri | Die S3-URI (z. B. 's3://BucketName/Key/ ') zum Hochladen von Protokollen für die Pipeline. | Zeichenfolge | 
| postActivityTaskConfig | Post-Activity-Konfigurationsskript, das ausgeführt werden soll. Dieses besteht aus einer URI des Shell-Skripts in Amazon S3 und einer Liste von Argumenten. | Referenzobjekt, z. B. "postActivityTaskConfig“: \$1"ref“:“ myShellScript ConfigId „\$1 | 
| preActivityTaskConfig | Pre-Activity-Konfigurationsskript, das ausgeführt werden soll. Dieses besteht aus einer URI des Shell-Skripts in Amazon S3 und einer Liste von Argumenten. | Referenzobjekt, z. B. "preActivityTaskConfig“: \$1"ref“:“ myShellScript ConfigId „\$1 | 
| precondition | Legen Sie optional eine Vorbedingung fest. Ein Datenknoten ist solange nicht als "BEREIT" markiert, bis alle Vorbedingungen erfüllt sind. | Referenzobjekt, z. B. „Vorbedingung“: \$1"ref“:“ myPreconditionId „\$1 | 
| reportProgressTimeout | Timeout für aufeinanderfolgende Aufrufe von Remote-Arbeit in reportProgress. Wenn diese Option aktiviert ist, werden Remote-Aktivitäten, die den Fortschritt für den angegebenen Zeitraum nicht melden, als fehlgeschlagen angesehen und es wird erneut versucht. | Zeitraum | 
| resizeClusterBeforeWird ausgeführt | Ändern Sie die Größe des Clusters, bevor Sie diese Aktivität ausführen, um DynamoDB-Datenknoten aufzunehmen, die als Eingaben oder Ausgaben angegeben sind.  Wenn Ihre Aktivität a entweder `DynamoDBDataNode` als Eingabe- oder Ausgabedatenknoten verwendet und Sie den Wert auf setzen`TRUE`, AWS Data Pipeline beginnt die `resizeClusterBeforeRunning` Verwendung von `m3.xlarge` Instance-Typen. Dadurch wird Ihre Auswahl an Instance-Typen mit `m3.xlarge` überschrieben, wodurch Ihre monatlichen Kosten ansteigen könnten.  | Boolesch | 
| resizeClusterMaxInstanzen | Ein Limit für die maximale Anzahl von Instances, die vom Resize-Algorithmus angefordert werden können. | Ganzzahl | 
| retryDelay | Die Zeitüberschreitungsdauer zwischen zwei Wiederholungsversuchen. | Zeitraum | 
| scheduleType | Mit dem Zeitplantyp können Sie angeben, ob die Objekte in Ihrer Pipeline-Definition am Anfang des Intervalls oder am Ende des Intervalls geplant werden sollen. Zeitreihenstilplanung bedeutet, dass Instances am Ende jedes Intervalls geplant werden und Cron-Stil-Planung bedeutet, dass Instances zu Beginn jedes Intervalls geplant werden. Ein On-Demand-Zeitplan ermöglicht es Ihnen, eine Pipeline einmal pro Aktivierung auszuführen. Dies bedeutet, dass Sie die Pipeline nicht klonen oder neu erstellen müssen, um sie erneut auszuführen. Wenn Sie einen On-Demand-Zeitplan verwenden, muss er im Standardobjekt angegeben werden und der einzige für die Objekte in der Pipeline angegebene scheduleType sein. Um On-Demand-Pipelines zu verwenden, rufen Sie den ActivatePipeline Vorgang einfach für jeden nachfolgenden Lauf auf. Die Werte sind: cron, ondemand und timeseries. | Aufzählung | 
| scriptVariable | Gibt Skriptvariablen an, die Amazon EMR bei der Ausführung eines Skripts an Hive weitergibt. Im folgenden Beispiel etwa würden Skriptvariablen eine SAMPLE- und FILTER\$1DATE-Variable an Hive übergeben: SAMPLE=s3://elasticmapreduce/samples/hive-ads und  FILTER\$1DATE=\$1\$1format(@scheduledStartTime,'YYYY-MM-dd')\$1%. Dieses Feld akzeptiert mehrere Werte und funktioniert sowohl mit script- als auch mit scriptUri-Feldern. Darüber hinaus funktioniert scriptVariable unabhängig davon, ob "stage" auf true oder false festgelegt ist. Dieses Feld ist besonders nützlich, um mithilfe von AWS Data Pipeline -Ausdrücken und -Funktionen dynamische Werte an Hive zu senden. | Zeichenfolge | 
| stage | Legt fest, ob vor oder nach dem Ausführen des Skripts Staging aktiviert wird. Ist mit Hive 11 unzulässig. Verwenden Sie daher eine Amazon EMR-AMI in der Version 3.2.0 oder höher. | Boolesch | 

 


****  

| Laufzeitfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @activeInstances | Liste der aktuell geplanten aktiven Instance-Objekte. | Referenzobjekt, z. B. „ActiveInstances“: \$1"ref“:“ Id "\$1 myRunnableObject | 
| @actualEndTime | Zeitpunkt, zu dem die Ausführung dieses Objekts abgeschlossen wurde. | DateTime | 
| @actualStartTime | Zeitpunkt, zu dem die Ausführung dieses Objekts gestartet wurde. | DateTime | 
| cancellationReason | Die cancellationReason, wenn dieses Objekt storniert wurde. | Zeichenfolge | 
| @cascadeFailedOn | Beschreibung der Abhängigkeitskette, bei der das Objekt fehlgeschlagen ist. | Referenzobjekt, z. B. "cascadeFailedOn„: \$1" ref“:“ myRunnableObject Id "\$1 | 
| emrStepLog | Amazon EMR-Schrittprotokolle sind nur bei EMR-Aktivitätsversuchen verfügbar. | Zeichenfolge | 
| errorId | Die errorId, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorMessage | Die errorMessage, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorStackTrace | Die Fehler-Stack-Ablaufverfolgung., wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| @finishedTime | Der Zeitpunkt, zu der dieses Objekt seine Ausführung beendet hat. | DateTime | 
| hadoopJobLog | Hadoop-Jobprotokolle für Versuche für EMR-basierte Aktivitäten verfügbar. | Zeichenfolge | 
| @healthStatus | Der Integritätsstatus des Objekts, der Erfolg oder Misserfolg der letzten Objekt-Instance widerspiegelt, die einen beendeten Zustand erreicht hat. | Zeichenfolge | 
| @healthStatusFromInstanceId | Id des Objekts der letzten Instance, das einen beendeten Zustand erreicht hat. | Zeichenfolge | 
| @ Zeit healthStatusUpdated | Zeitpunkt, zu dem der Servicestatus beim letzten Mal aktualisiert wurde. | DateTime | 
| hostname | Der Hostname des Clients, der den Aufgabenversuch aufnimmt. | Zeichenfolge | 
| @lastDeactivatedTime | Zeitpunkt, zu dem dieses Objekt zuletzt deaktiviert wurde. | DateTime | 
| @ latestCompletedRun Zeit | Zeitpunkt des letzten Laufs, für den die Ausführung abgeschlossen wurde. | DateTime | 
| @latestRunTime | Zeitpunkt des letzten Laufs, für den die Ausführung geplant war. | DateTime | 
| @nextRunTime | Zeitpunkt des Laufs, der als nächstes geplant werden soll | DateTime | 
| reportProgressTime | Der letzte Zeitpunkt, an dem die Remote-Aktivität einen Fortschritt gemeldet hat. | DateTime | 
| @scheduledEndTime | Endzeit für ein Objekt einplanen | DateTime | 
| @scheduledStartTime | Startzeit für ein Objekt einplanen | DateTime | 
| @Status | Der Status des Objekts. | Zeichenfolge | 
| @Version | Pipeline-Version, mit der das Objekt erstellt wurde. | Zeichenfolge | 
| @waitingOn | Beschreibung der Liste der Abhängigkeiten, auf die dieses Objekt wartet. | Referenzobjekt, z. B. „WaitingOn“: \$1"ref“:“ myRunnableObject Id "\$1 | 

 


****  

| Systemfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @error | Fehler mit einer Beschreibung des falsch formatierten Objekts. | Zeichenfolge | 
| @pipelineId | ID der Pipeline, zu der dieses Objekt gehört | Zeichenfolge | 
| @sphere | Die Kugel eines Objekts bezeichnet seinen Platz im Lebenszyklus: Komponentenobjekte ergeben Instance-Objekte, die Versuchsobjekte ausführen. | Zeichenfolge | 

## Weitere Informationen finden Sie unter:
<a name="hiveactivity-seealso"></a>
+ [ShellCommandActivity](dp-object-shellcommandactivity.md)
+ [EmrActivity](dp-object-emractivity.md)

# HiveCopyActivity
<a name="dp-object-hivecopyactivity"></a>

Führt eine Hive-Abfrage auf einem EMR-Cluster aus. `HiveCopyActivity`erleichtert das Kopieren von Daten zwischen DynamoDB-Tabellen. `HiveCopyActivity`akzeptiert eine HiveQL-Anweisung zum Filtern von Eingabedaten aus DynamoDB auf Spalten- und Zeilenebene.

## Beispiel
<a name="hivecopyactivity-example"></a>

Das folgende Beispiel zeigt, wie Sie mit `HiveCopyActivity` und `DynamoDBExportDataFormat` Daten von einem `DynamoDBDataNode` auf einen anderen kopieren können, während gleichzeitig Daten basierend auf einem Zeitstempel gefiltert werden.

```
{
  "objects": [
    {
      "id" : "DataFormat.1",
      "name" : "DataFormat.1",
      "type" : "DynamoDBExportDataFormat",
      "column" : "timeStamp BIGINT"
    },
    {
      "id" : "DataFormat.2",
      "name" : "DataFormat.2",
      "type" : "DynamoDBExportDataFormat"
    },
    {
      "id" : "DynamoDBDataNode.1",
      "name" : "DynamoDBDataNode.1",
      "type" : "DynamoDBDataNode",
      "tableName" : "item_mapped_table_restore_temp",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.1" }
    },
    {
      "id" : "DynamoDBDataNode.2",
      "name" : "DynamoDBDataNode.2",
      "type" : "DynamoDBDataNode",
      "tableName" : "restore_table",
      "region" : "us_west_1",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.2" }
    },
    {
      "id" : "EmrCluster.1",
      "name" : "EmrCluster.1",
      "type" : "EmrCluster",
      "schedule" : { "ref" : "ResourcePeriod" },
      "masterInstanceType" : "m1.xlarge",
      "coreInstanceCount" : "4"
    },
    {
      "id" : "HiveTransform.1",
      "name" : "Hive Copy Transform.1",
      "type" : "HiveCopyActivity",
      "input" : { "ref" : "DynamoDBDataNode.1" },
      "output" : { "ref" : "DynamoDBDataNode.2" },
      "schedule" :{ "ref" : "ResourcePeriod" },
      "runsOn" : { "ref" : "EmrCluster.1" },
      "filterSql" : "`timeStamp` > unix_timestamp(\"#{@scheduledStartTime}\", \"yyyy-MM-dd'T'HH:mm:ss\")"
    },
    {
      "id" : "ResourcePeriod",
      "name" : "ResourcePeriod",
      "type" : "Schedule",
      "period" : "1 Hour",
      "startDateTime" : "2013-06-04T00:00:00",
      "endDateTime" : "2013-06-04T01:00:00"
    }
  ]
}
```

## Syntax
<a name="hivecopyactivity-syntax"></a>


****  

| Objektaufruf-Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| schedule | Dieses Objekt wird innerhalb der Ausführung eines Zeitplanintervalls aufgerufen. Benutzer müssen einen Zeitplanverweis auf ein anderes Objekt angeben, um die Abhängigkeitsausführungsreihenfolge für dieses Objekt festzulegen. Benutzer können diese Anforderung erfüllen, indem sie explizit einen Zeitplan für das Objekt festlegen, indem sie beispielsweise „schedule“: \$1"ref“: "„\$1 angeben. DefaultSchedule In den meisten Fällen ist es besser, den Zeitplanverweis auf das Standard-Pipeline-Objekt zu setzen, damit alle Objekte diesen Zeitplan erben. Wenn die Pipeline über einen Baum mit Zeitplänen verfügt (Zeitpläne innerhalb des Hauptplans), können Benutzer ein übergeordnetes Objekt mit Zeitplänenreferenz erstellen. Weitere Informationen zu optionalen Beispiel-Zeitplankonfigurationen finden Sie unter [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html). | Referenzobjekt, z. B. „schedule“: \$1"ref“:“ myScheduleId „\$1 | 

 


****  

| Erforderliche Gruppe (mindestens eine der folgenden ist erforderlich) | Description | Slot-Typ | 
| --- | --- | --- | 
| runsOn | Geben Sie den Cluster an, auf dem ausgeführt werden soll. | Referenzobjekt, z. B. „runsOn“: \$1"ref“:“ myResourceId „\$1 | 
| workerGroup | Die Auftragnehmergruppe. Dies wird für Routing-Aufgaben verwendet. Wenn Sie einen runsOn-Wert angeben und workerGroup vorhanden ist, wird ignoriert.workerGroup | Zeichenfolge | 

 


****  

| Optionale Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| attemptStatus | Der zuletzt gemeldete Status von der Remote-Aktivität. | Zeichenfolge | 
| attemptTimeout | Das Timeout für die Fertigstellung der Remote-Arbeit. Wenn diese Option aktiviert ist, kann eine Remote-Aktivität, die nicht innerhalb der festgelegten Startzeit abgeschlossen wird, wiederholt werden. | Zeitraum | 
| dependsOn | Gibt die Abhängigkeit von einem anderen ausführbaren Objekt an. | Referenzobjekt, z. B. „dependSon“: \$1"ref“:“ myActivityId „\$1 | 
| failureAndRerunModus | Beschreibt das Verhalten des Konsumentenknotens, wenn Abhängigkeiten fehlschlagen oder erneut ausgeführt werden. | Aufzählung | 
| filterSql | Ein Hive-SQL-Anweisungsfragment, das eine Teilmenge der zu kopierenden DynamoDB- oder Amazon S3 S3-Daten filtert. Der Filter sollte nur Prädikate enthalten und nicht mit einer WHERE Klausel beginnen, da er automatisch hinzugefügt wird. AWS Data Pipeline  | Zeichenfolge | 
| input | Die Eingangsdatenquelle. Dies muss ein S3DataNode oder DynamoDBDataNode sein. Wenn Sie DynamoDBNode verwenden, geben Sie ein DynamoDBExportDataFormat an. | Referenzobjekt, z. B. „input“: \$1"ref“:“ myDataNode Id "\$1 | 
| lateAfterTimeout | Die nach dem Start der Pipeline verstrichene Zeit, innerhalb der das Objekt abgeschlossen werden muss. Sie wird nur ausgelöst, wenn der Zeitplantyp nicht auf eingestellt ist. ondemand | Zeitraum | 
| maxActiveInstances | Die maximale Anzahl gleichzeitiger aktiver Instances einer Komponente. Wiederholungen zählen nicht zur Anzahl der aktiven Instances. | Ganzzahl | 
| maximumRetries | Die maximale Anzahl von Versuchen bei Ausfällen. | Ganzzahl | 
| onFail | Eine Aktion, die ausgeführt werden soll, wenn das aktuelle Objekt fehlschlägt. | Referenzobjekt, z. B. „onFail“: \$1"ref“:“ myActionId „\$1 | 
| onLateAction | Aktionen, die ausgelöst werden sollen, wenn ein Objekt noch nicht geplant oder noch nicht abgeschlossen wurde. | Referenzobjekt, z. B. "onLateAction„: \$1" ref“:“ myActionId „\$1 | 
| onSuccess | Eine Aktion, die ausgeführt wird, wenn das aktuelle Objekt erfolgreich ist. | Referenzobjekt, z. B. „onSuccess“: \$1"ref“:“ myActionId „\$1 | 
| output | Die Eingangsdatenquelle. Wenn die Eingabe S3DataNode ist, muss diese auf DynamoDBDataNode festgelegt sein. Andernfalls kann dies S3DataNode oder DynamoDBDataNode sein. Wenn Sie DynamoDBNode verwenden, geben Sie ein DynamoDBExportDataFormat an. | Referenzobjekt, z. B. „output“: \$1"ref“:“ myDataNode Id "\$1 | 
| übergeordneter | Das übergeordnetes Objekt des aktuellen Objekts, aus dem Slots übernommen werden. | Referenzobjekt, z. B. „parent“: \$1"ref“:“ myBaseObject Id "\$1 | 
| pipelineLogUri | Die Amazon S3 S3-URI, z. B.  's3://BucketName/Key/' für das Hochladen von Protokollen für die Pipeline. | Zeichenfolge | 
| postActivityTaskConfig | Das Post-Activity-Konfigurationsskript, das ausgeführt werden soll. Dieses besteht aus einer URI des Shell-Skripts in Amazon S3 und einer Liste von Argumenten. | Referenzobjekt, z. B. "postActivityTaskConfig“: \$1"ref“:“ myShellScript ConfigId „\$1 | 
| preActivityTaskConfig | Das Pre-Activity-Konfigurationsskript, das ausgeführt werden soll. Dieses besteht aus einer URI des Shell-Skripts in Amazon S3 und einer Liste von Argumenten. | Referenzobjekt, z. B. "preActivityTaskConfig“: \$1"ref“:“ myShellScript ConfigId „\$1 | 
| precondition | Definiert optional eine Vorbedingung. Ein Datenknoten ist solange nicht als "BEREIT" markiert, bis alle Vorbedingungen erfüllt sind. | Referenzobjekt, z. B. „Vorbedingung“: \$1"ref“:“ myPreconditionId „\$1 | 
| reportProgressTimeout | Das Timeout für aufeinanderfolgende Aufrufe von reportProgress durch Remote-Arbeit. Wenn diese Option aktiviert ist, werden Remote-Aktivitäten, die den Fortschritt für den angegebenen Zeitraum nicht melden, als fehlgeschlagen angesehen und es wird erneut versucht. | Zeitraum | 
| resizeClusterBeforeWird ausgeführt | Ändern Sie die Größe des Clusters, bevor Sie diese Aktivität ausführen, um DynamoDB-Datenknoten aufzunehmen, die als Eingaben oder Ausgaben angegeben sind.  Wenn Ihre Aktivität a entweder `DynamoDBDataNode` als Eingabe- oder Ausgabedatenknoten verwendet und Sie den Wert auf setzen`TRUE`, AWS Data Pipeline beginnt die `resizeClusterBeforeRunning` Verwendung von `m3.xlarge` Instance-Typen. Dadurch wird Ihre Auswahl an Instance-Typen mit `m3.xlarge` überschrieben, wodurch Ihre monatlichen Kosten ansteigen könnten.  | Boolesch | 
| resizeClusterMaxInstanzen | Ein Limit für die maximale Anzahl von Instances, die vom Resize-Algorithmus angefordert werden können. | Ganzzahl | 
| retryDelay | Die Zeitüberschreitungsdauer zwischen zwei Wiederholungsversuchen. | Zeitraum | 
| scheduleType | Mit dem Zeitplantyp können Sie angeben, ob die Objekte in Ihrer Pipeline-Definition am Anfang des Intervalls oder am Ende des Intervalls geplant werden sollen. Zeitreihenstilplanung bedeutet, dass Instances am Ende jedes Intervalls geplant werden und Cron-Stil-Planung bedeutet, dass Instances zu Beginn jedes Intervalls geplant werden. Ein On-Demand-Zeitplan ermöglicht es Ihnen, eine Pipeline einmal pro Aktivierung auszuführen. Dies bedeutet, dass Sie die Pipeline nicht klonen oder neu erstellen müssen, um sie erneut auszuführen. Wenn Sie einen On-Demand-Zeitplan verwenden, muss er im Standardobjekt angegeben werden und der einzige für die Objekte in der Pipeline angegebene scheduleType sein. Um On-Demand-Pipelines zu verwenden, rufen Sie den ActivatePipeline Vorgang einfach für jeden nachfolgenden Lauf auf. Die Werte sind: cron, ondemand und timeseries. | Aufzählung | 

 


****  

| Laufzeitfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @activeInstances | Liste der aktuell geplanten aktiven Instance-Objekte. | Referenzobjekt, z. B. „ActiveInstances“: \$1"ref“:“ myRunnableObject Id "\$1 | 
| @actualEndTime | Zeitpunkt, zu dem die Ausführung dieses Objekts abgeschlossen wurde. | DateTime | 
| @actualStartTime | Zeitpunkt, zu dem die Ausführung dieses Objekts gestartet wurde. | DateTime | 
| cancellationReason | Die cancellationReason, wenn dieses Objekt storniert wurde. | Zeichenfolge | 
| @cascadeFailedOn | Beschreibung der Abhängigkeitskette, bei der das Objekt fehlgeschlagen ist. | Referenzobjekt, z. B. "cascadeFailedOn„: \$1" ref“:“ myRunnableObject Id "\$1 | 
| emrStepLog | Amazon EMR-Schrittprotokolle sind nur bei EMR-Aktivitätsversuchen verfügbar. | Zeichenfolge | 
| errorId | Die errorId, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorMessage | Die errorMessage, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorStackTrace | Die Fehler-Stack-Ablaufverfolgung., wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| @finishedTime | Der Zeitpunkt, zu der dieses Objekt seine Ausführung beendet hat. | DateTime | 
| hadoopJobLog | Hadoop-Jobprotokolle für Versuche für EMR-basierte Aktivitäten verfügbar. | Zeichenfolge | 
| @healthStatus | Der Integritätsstatus des Objekts, der Erfolg oder Misserfolg der letzten Objekt-Instance widerspiegelt, die einen beendeten Zustand erreicht hat. | Zeichenfolge | 
| @healthStatusFromInstanceId | Id des Objekts der letzten Instance, das einen beendeten Zustand erreicht hat. | Zeichenfolge | 
| @ Zeit healthStatusUpdated | Zeitpunkt, zu dem der Servicestatus beim letzten Mal aktualisiert wurde. | DateTime | 
| hostname | Der Hostname des Clients, der den Aufgabenversuch aufnimmt. | Zeichenfolge | 
| @lastDeactivatedTime | Zeitpunkt, zu dem dieses Objekt zuletzt deaktiviert wurde. | DateTime | 
| @ latestCompletedRun Zeit | Zeitpunkt des letzten Laufs, für den die Ausführung abgeschlossen wurde. | DateTime | 
| @latestRunTime | Zeitpunkt des letzten Laufs, für den die Ausführung geplant war. | DateTime | 
| @nextRunTime | Zeitpunkt des Laufs, der als nächstes geplant werden soll | DateTime | 
| reportProgressTime | Der letzte Zeitpunkt, an dem die Remote-Aktivität einen Fortschritt gemeldet hat. | DateTime | 
| @scheduledEndTime | Endzeit für Objekt einplanen. | DateTime | 
| @scheduledStartTime | Startzeit für Objekt einplanen. | DateTime | 
| @Status | Der Status des Objekts. | Zeichenfolge | 
| @Version | Pipeline-Version, mit der das Objekt erstellt wurde. | Zeichenfolge | 
| @waitingOn | Beschreibung der Liste der Abhängigkeiten, auf die dieses Objekt wartet. | Referenzobjekt, z. B. „waitingOn“: \$1"ref“:“ myRunnableObject Id "\$1 | 

 


****  

| Systemfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @error | Fehler mit einer Beschreibung des falsch formatierten Objekts. | Zeichenfolge | 
| @pipelineId | Id der Pipeline, zu der dieses Objekt gehört. | Zeichenfolge | 
| @sphere | Die Sphäre eines Objekts bezeichnet seine Position im Lebenszyklus: Komponentenobjekte ergeben Instance-Objekte, die ein Versuchsobjekt ausführen. | Zeichenfolge | 

## Weitere Informationen finden Sie unter:
<a name="hivecopyactivity-seealso"></a>
+ [ShellCommandActivity](dp-object-shellcommandactivity.md)
+ [EmrActivity](dp-object-emractivity.md)

# PigActivity
<a name="dp-object-pigactivity"></a>

PigActivity bietet native Unterstützung für Pig-Skripte, AWS Data Pipeline ohne dass die Verwendung von `ShellCommandActivity` oder erforderlich ist`EmrActivity`. PigActivity Unterstützt außerdem Daten-Staging. Wenn das Stage-Feld auf „true“ festgelegt wurde, arrangiert AWS Data Pipeline die Eingabedaten ohne zusätzlichen Code des Benutzers als Schema in Pig. 

## Beispiel
<a name="pigactivity-example"></a>

Im folgenden Pipeline-Beispiel wird gezeigt, wie `PigActivity` verwendet wird. Die Beispiel-Pipeline führt die folgenden Schritte aus:
+ MyPigActivity1 lädt Daten aus Amazon S3 und führt ein Pig-Skript aus, das einige Datenspalten auswählt und sie auf Amazon S3 hochlädt.
+ MyPigActivity2 lädt die erste Ausgabe, wählt einige Spalten und drei Datenzeilen aus und lädt sie als zweite Ausgabe auf Amazon S3 hoch.
+ MyPigActivity3 lädt die zweiten Ausgabedaten, fügt zwei Datenzeilen und nur die Spalte mit dem Namen „Fifth“ in Amazon RDS ein.
+ MyPigActivity4 lädt Amazon RDS-Daten, wählt die erste Datenzeile aus und lädt sie auf Amazon S3 hoch.

```
{
  "objects": [
    {
      "id": "MyInputData1",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "directoryPath": "s3://amzn-s3-demo-bucket/pigTestInput",
      "name": "MyInputData1",
      "dataFormat": {
        "ref": "MyInputDataType1"
      },
      "type": "S3DataNode"
    },
    {
      "id": "MyPigActivity4",
      "scheduleType": "CRON",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "input": {
        "ref": "MyOutputData3"
      },
      "pipelineLogUri": "s3://amzn-s3-demo-bucket/path/",
      "name": "MyPigActivity4",
      "runsOn": {
        "ref": "MyEmrResource"
      },
      "type": "PigActivity",
      "dependsOn": {
        "ref": "MyPigActivity3"
      },
      "output": {
        "ref": "MyOutputData4"
      },
      "script": "B = LIMIT ${input1} 1; ${output1} = FOREACH B GENERATE one;",
      "stage": "true"
    },
    {
      "id": "MyPigActivity3",
      "scheduleType": "CRON",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "input": {
        "ref": "MyOutputData2"
      },
      "pipelineLogUri": "s3://amzn-s3-demo-bucket/path",
      "name": "MyPigActivity3",
      "runsOn": {
        "ref": "MyEmrResource"
      },
      "script": "B = LIMIT ${input1} 2; ${output1} = FOREACH B GENERATE Fifth;",
      "type": "PigActivity",
      "dependsOn": {
        "ref": "MyPigActivity2"
      },
      "output": {
        "ref": "MyOutputData3"
      },
      "stage": "true"
    },
    {
      "id": "MyOutputData2",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "name": "MyOutputData2",
      "directoryPath": "s3://amzn-s3-demo-bucket/PigActivityOutput2",
      "dataFormat": {
        "ref": "MyOutputDataType2"
      },
      "type": "S3DataNode"
    },
    {
      "id": "MyOutputData1",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "name": "MyOutputData1",
      "directoryPath": "s3://amzn-s3-demo-bucket/PigActivityOutput1",
      "dataFormat": {
        "ref": "MyOutputDataType1"
      },
      "type": "S3DataNode"
    },
    {
      "id": "MyInputDataType1",
      "name": "MyInputDataType1",
      "column": [
        "First STRING",
        "Second STRING",
        "Third STRING",
        "Fourth STRING",
        "Fifth STRING",
        "Sixth STRING",
        "Seventh STRING",
        "Eighth STRING",
        "Ninth STRING",
        "Tenth STRING"
      ],
      "inputRegEx": "^(\\\\S+) (\\\\S+) (\\\\S+) (\\\\S+) (\\\\S+) (\\\\S+) (\\\\S+) (\\\\S+) (\\\\S+) (\\\\S+)",
      "type": "RegEx"
    },
    {
      "id": "MyEmrResource",
      "region": "us-east-1",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "keyPair": "example-keypair",
      "masterInstanceType": "m1.small",
      "enableDebugging": "true",
      "name": "MyEmrResource",
      "actionOnTaskFailure": "continue",
      "type": "EmrCluster"
    },
    {
      "id": "MyOutputDataType4",
      "name": "MyOutputDataType4",
      "column": "one STRING",
      "type": "CSV"
    },
    {
      "id": "MyOutputData4",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "directoryPath": "s3://amzn-s3-demo-bucket/PigActivityOutput3",
      "name": "MyOutputData4",
      "dataFormat": {
        "ref": "MyOutputDataType4"
      },
      "type": "S3DataNode"
    },
    {
      "id": "MyOutputDataType1",
      "name": "MyOutputDataType1",
      "column": [
        "First STRING",
        "Second STRING",
        "Third STRING",
        "Fourth STRING",
        "Fifth STRING",
        "Sixth STRING",
        "Seventh STRING",
        "Eighth STRING"
      ],
      "columnSeparator": "*",
      "type": "Custom"
    },
    {
      "id": "MyOutputData3",
      "username": "___",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "insertQuery": "insert into #{table} (one) values (?)",
      "name": "MyOutputData3",
      "*password": "___",
      "runsOn": {
        "ref": "MyEmrResource"
      },
      "connectionString": "jdbc:mysql://example-database-instance:3306/example-database",
      "selectQuery": "select * from #{table}",
      "table": "example-table-name",
      "type": "MySqlDataNode"
    },
    {
      "id": "MyOutputDataType2",
      "name": "MyOutputDataType2",
      "column": [
        "Third STRING",
        "Fourth STRING",
        "Fifth STRING",
        "Sixth STRING",
        "Seventh STRING",
        "Eighth STRING"
      ],
      "type": "TSV"
    },
    {
      "id": "MyPigActivity2",
      "scheduleType": "CRON",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "input": {
        "ref": "MyOutputData1"
      },
      "pipelineLogUri": "s3://amzn-s3-demo-bucket/path",
      "name": "MyPigActivity2",
      "runsOn": {
        "ref": "MyEmrResource"
      },
      "dependsOn": {
        "ref": "MyPigActivity1"
      },
      "type": "PigActivity",
      "script": "B = LIMIT ${input1} 3; ${output1} = FOREACH B GENERATE Third, Fourth, Fifth, Sixth, Seventh, Eighth;",
      "output": {
        "ref": "MyOutputData2"
      },
      "stage": "true"
    },
    {
      "id": "MyEmrResourcePeriod",
      "startDateTime": "2013-05-20T00:00:00",
      "name": "MyEmrResourcePeriod",
      "period": "1 day",
      "type": "Schedule",
      "endDateTime": "2013-05-21T00:00:00"
    },
    {
      "id": "MyPigActivity1",
      "scheduleType": "CRON",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "input": {
        "ref": "MyInputData1"
      },
      "pipelineLogUri": "s3://amzn-s3-demo-bucket/path",
      "scriptUri": "s3://amzn-s3-demo-bucket/script/pigTestScipt.q",
      "name": "MyPigActivity1",
      "runsOn": {
        "ref": "MyEmrResource"
      },
      "scriptVariable": [
        "column1=First",
        "column2=Second",
        "three=3"
      ],
      "type": "PigActivity",
      "output": {
        "ref": "MyOutputData1"
      },
      "stage": "true"
    }
  ]
}
```

Der Inhalt von `pigTestScript.q` ist wie folgt:

```
B = LIMIT ${input1} $three; ${output1} = FOREACH B GENERATE $column1, $column2, Third, Fourth, Fifth, Sixth, Seventh, Eighth;
```

## Syntax
<a name="pigactivity-syntax"></a>


****  

| Objektaufruf-Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| schedule | Dieses Objekt wird innerhalb der Ausführung eines Zeitplanintervalls aufgerufen. Benutzer müssen einen Zeitplanverweis auf ein anderes Objekt angeben, um die Abhängigkeitsausführungsreihenfolge für dieses Objekt festzulegen. Benutzer können diese Anforderung erfüllen, indem sie explizit einen Zeitplan für das Objekt festlegen, z. B. indem sie „schedule“: \$1"ref“: "DefaultSchedule„\$1 angeben. In den meisten Fällen ist es besser, den Zeitplanverweis auf das Standard-Pipeline-Objekt zu setzen, damit alle Objekte diesen Zeitplan erben. Wenn die Pipeline über einen Baum mit Zeitplänen verfügt (Zeitpläne innerhalb des Hauptplans), können Benutzer ein übergeordnetes Objekt mit Zeitplänenreferenz erstellen. Weitere Informationen zu optionalen Beispiel-Zeitplankonfigurationen finden Sie unter [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html). | Referenzobjekt, zum Beispiel „schedule“: \$1"ref“:“ myScheduleId „\$1 | 

 


****  

| Erforderliche Gruppe (mindestens eine der folgenden ist erforderlich) | Description | Slot-Typ | 
| --- | --- | --- | 
| script | Das auszuführende Pig-Skript. | Zeichenfolge | 
| scriptUri | Der Speicherort des auszuführenden Pig-Skripts (z. B. s3://scriptLocation). | Zeichenfolge | 

 


****  

| Erforderliche Gruppe (mindestens eine der folgenden ist erforderlich) | Description | Slot-Typ | 
| --- | --- | --- | 
| runsOn | EMR-Cluster, auf dem das PigActivity läuft. | Referenzobjekt, zum Beispiel „runsOn“: \$1"ref“:“ myEmrCluster Id "\$1 | 
| workerGroup | Die Auftragnehmergruppe. Dies wird für Routing-Aufgaben verwendet. Wenn Sie einen runsOn-Wert angeben und workerGroup vorhanden ist, wird ignoriert.workerGroup | Zeichenfolge | 

 


****  

| Optionale Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| attemptStatus | Der zuletzt gemeldete Status von der Remote-Aktivität. | Zeichenfolge | 
| attemptTimeout | Das Timeout für die Fertigstellung der Remote-Arbeit. Wenn diese Option aktiviert ist, kann eine Remote-Aktivität, die nicht innerhalb der festgelegten Startzeit abgeschlossen wird, wiederholt werden. | Zeitraum | 
| dependsOn | Gibt die Abhängigkeit von einem anderen ausführbaren Objekt an. | Referenzobjekt, zum Beispiel „dependSon“: \$1"ref“:“ myActivityId „\$1 | 
| failureAndRerunModus | Beschreibt das Verhalten des Konsumentenknotens, wenn Abhängigkeiten fehlschlagen oder erneut ausgeführt werden. | Aufzählung | 
| input | Die Eingangsdatenquelle. | Referenzobjekt, zum Beispiel „input“: \$1"ref“:“ myDataNode Id "\$1 | 
| lateAfterTimeout | Die verstrichene Zeit nach dem Start der Pipeline, innerhalb derer das Objekt abgeschlossen werden muss. Sie wird nur ausgelöst, wenn der Zeitplantyp nicht auf eingestellt ist. ondemand | Zeitraum | 
| maxActiveInstances | Die maximale Anzahl gleichzeitiger aktiver Instances einer Komponente. Wiederholungen zählen nicht zur Anzahl der aktiven Instances. | Ganzzahl | 
| maximumRetries | Die maximale Anzahl von Versuchen bei Ausfällen. | Ganzzahl | 
| onFail | Eine Aktion, die ausgeführt werden soll, wenn das aktuelle Objekt fehlschlägt. | Referenzobjekt, zum Beispiel „onFail“: \$1"ref“:“ myActionId „\$1 | 
| onLateAction | Aktionen, die ausgelöst werden sollen, wenn ein Objekt noch nicht geplant oder noch nicht abgeschlossen wurde. | Referenzobjekt, zum Beispiel "onLateAction„: \$1" ref“:“ myActionId „\$1 | 
| onSuccess | Eine Aktion, die ausgeführt wird, wenn das aktuelle Objekt erfolgreich ist. | Referenzobjekt, zum Beispiel „onSuccess“: \$1"ref“:“ myActionId „\$1 | 
| output | Die Eingangsdatenquelle. | Referenzobjekt, zum Beispiel „output“: \$1"ref“:“ myDataNode Id "\$1 | 
| übergeordneter | Übergeordnetes Objekt des aktuellen Objekts, aus dem Slots übernommen werden. | Referenzobjekt, zum Beispiel „parent“: \$1"ref“:“ myBaseObject Id "\$1 | 
| pipelineLogUri | Die Amazon S3 S3-URI (z. B. 's3://BucketName/Key/ ') zum Hochladen von Protokollen für die Pipeline. | Zeichenfolge | 
| postActivityTaskConfig | Post-Activity-Konfigurationsskript, das ausgeführt werden soll. Dies besteht aus einer URI des Shell-Skripts in Amazon S33 und einer Liste von Argumenten. | Referenzobjekt, zum Beispiel "postActivityTaskConfig“: \$1"ref“:“ myShellScript ConfigId „\$1 | 
| preActivityTaskConfig | Pre-Activity-Konfigurationsskript, das ausgeführt werden soll. Dieses besteht aus einer URI des Shell-Skripts in Amazon S3 und einer Liste von Argumenten. | Referenzobjekt, zum Beispiel "preActivityTaskConfig“: \$1"ref“:“ myShellScript ConfigId „\$1 | 
| precondition | Legen Sie optional eine Vorbedingung fest. Ein Datenknoten ist solange nicht als "BEREIT" markiert, bis alle Vorbedingungen erfüllt sind. | Referenzobjekt, zum Beispiel „precondition“: \$1"ref“:“ myPreconditionId „\$1 | 
| reportProgressTimeout | Das Timeout für aufeinanderfolgende Aufrufe von reportProgress durch Remote-Arbeit. Wenn diese Option aktiviert ist, werden Remote-Aktivitäten, die den Fortschritt für den angegebenen Zeitraum nicht melden, als fehlgeschlagen angesehen und es wird erneut versucht. | Zeitraum | 
| resizeClusterBeforeWird ausgeführt | Ändern Sie die Größe des Clusters, bevor Sie diese Aktivität ausführen, um DynamoDB-Datenknoten aufzunehmen, die als Eingaben oder Ausgaben angegeben sind. Wenn Ihre Aktivität a entweder `DynamoDBDataNode` als Eingabe- oder Ausgabedatenknoten verwendet und Sie den Wert auf setzen`TRUE`, AWS Data Pipeline beginnt die `resizeClusterBeforeRunning` Verwendung von `m3.xlarge` Instance-Typen. Dadurch wird Ihre Auswahl an Instance-Typen mit `m3.xlarge` überschrieben, wodurch Ihre monatlichen Kosten ansteigen könnten.  | Boolesch | 
| resizeClusterMaxInstanzen | Ein Limit für die maximale Anzahl von Instances, die vom Resize-Algorithmus angefordert werden können. | Ganzzahl | 
| retryDelay | Die Zeitüberschreitungsdauer zwischen zwei Wiederholungsversuchen. | Zeitraum | 
| scheduleType | Mit dem Zeitplantyp können Sie angeben, ob die Objekte in Ihrer Pipeline-Definition am Anfang des Intervalls oder am Ende des Intervalls geplant werden sollen. Zeitreihenstilplanung bedeutet, dass Instances am Ende jedes Intervalls geplant werden und Cron-Stil-Planung bedeutet, dass Instances zu Beginn jedes Intervalls geplant werden. Ein On-Demand-Zeitplan ermöglicht es Ihnen, eine Pipeline einmal pro Aktivierung auszuführen. Dies bedeutet, dass Sie die Pipeline nicht klonen oder neu erstellen müssen, um sie erneut auszuführen. Wenn Sie einen On-Demand-Zeitplan verwenden, muss er im Standardobjekt angegeben werden und der einzige für die Objekte in der Pipeline angegebene scheduleType sein. Um On-Demand-Pipelines zu verwenden, rufen Sie den ActivatePipeline Vorgang einfach für jeden nachfolgenden Lauf auf. Die Werte sind: cron, ondemand und timeseries. | Aufzählung | 
| scriptVariable | Die Argumente, die an das Pig-Skript übergeben werden sollen. Sie können scriptVariable mit script oder scriptUri verwenden. | Zeichenfolge | 
| stage | Bestimmt, ob das Staging aktiviert ist, und ermöglicht Ihrem Pig-Skript den Zugriff auf die Tabellen mit Staging-Daten, wie \$1 \$1INPUT1\$1 und \$1 \$1\$1. OUTPUT1 | Boolesch | 

 


****  

| Laufzeitfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @activeInstances | Liste der aktuell geplanten aktiven Instance-Objekte. | Referenzobjekt, zum Beispiel „ActiveInstances“: \$1"ref“:“ Id "\$1 myRunnableObject | 
| @actualEndTime | Zeitpunkt, zu dem die Ausführung dieses Objekts abgeschlossen wurde. | DateTime | 
| @actualStartTime | Zeitpunkt, zu dem die Ausführung dieses Objekts gestartet wurde. | DateTime | 
| cancellationReason | Die cancellationReason, wenn dieses Objekt storniert wurde. | Zeichenfolge | 
| @cascadeFailedOn | Beschreibung der Abhängigkeitskette, bei der das Objekt fehlgeschlagen ist. | Referenzobjekt, zum Beispiel "cascadeFailedOn„: \$1" ref“:“ myRunnableObject Id "\$1 | 
| emrStepLog | Amazon EMR-Schrittprotokolle sind nur bei EMR-Aktivitätsversuchen verfügbar. | Zeichenfolge | 
| errorId | Die errorId, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorMessage | Die errorMessage, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorStackTrace | Die Fehler-Stack-Ablaufverfolgung., wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| @finishedTime | Der Zeitpunkt, zu der dieses Objekt seine Ausführung beendet hat. | DateTime | 
| hadoopJobLog | Hadoop-Jobprotokolle für Versuche für EMR-basierte Aktivitäten verfügbar. | Zeichenfolge | 
| @healthStatus | Der Integritätsstatus des Objekts, der Erfolg oder Misserfolg der letzten Objekt-Instance widerspiegelt, die einen beendeten Zustand erreicht hat. | Zeichenfolge | 
| @healthStatusFromInstanceId | Id des Objekts der letzten Instance, das einen beendeten Zustand erreicht hat. | Zeichenfolge | 
| @ Zeit healthStatusUpdated | Zeitpunkt, zu dem der Servicestatus beim letzten Mal aktualisiert wurde. | DateTime | 
| hostname | Der Hostname des Clients, der den Aufgabenversuch aufnimmt. | Zeichenfolge | 
| @lastDeactivatedTime | Zeitpunkt, zu dem dieses Objekt zuletzt deaktiviert wurde. | DateTime | 
| @ latestCompletedRun Zeit | Zeitpunkt des letzten Laufs, für den die Ausführung abgeschlossen wurde. | DateTime | 
| @latestRunTime | Zeitpunkt des letzten Laufs, für den die Ausführung geplant war. | DateTime | 
| @nextRunTime | Zeitpunkt des Laufs, der als nächstes geplant werden soll | DateTime | 
| reportProgressTime | Der letzte Zeitpunkt, an dem die Remote-Aktivität einen Fortschritt gemeldet hat. | DateTime | 
| @scheduledEndTime | Endzeit für das Objekt einplanen. | DateTime | 
| @scheduledStartTime | Startzeit für das Objekt einplanen. | DateTime | 
| @Status | Der Status des Objekts. | Zeichenfolge | 
| @Version | Pipeline-Version, mit der das Objekt erstellt wurde | Zeichenfolge | 
| @waitingOn | Beschreibung der Liste der Abhängigkeiten, auf die dieses Objekt wartet. | Referenzobjekt, zum Beispiel „WaitingOn“: \$1"ref“:“ myRunnableObject Id "\$1 | 

 


****  

| Systemfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @error | Fehler mit einer Beschreibung des falsch formatierten Objekts. | Zeichenfolge | 
| @pipelineId | ID der Pipeline, zu der dieses Objekt gehört. | Zeichenfolge | 
| @sphere | Die Kugel eines Objekts bezeichnet seinen Platz im Lebenszyklus: Komponentenobjekte ergeben Instance-Objekte, die Versuchsobjekte ausführen. | Zeichenfolge | 

## Weitere Informationen finden Sie unter:
<a name="pigactivity-seealso"></a>
+ [ShellCommandActivity](dp-object-shellcommandactivity.md)
+ [EmrActivity](dp-object-emractivity.md)

# RedshiftCopyActivity
<a name="dp-object-redshiftcopyactivity"></a>

Kopiert Daten von DynamoDB oder Amazon S3 nach Amazon Redshift. Sie können Daten in eine neue Tabelle laden oder Daten in einer vorhandenen Tabelle einfach zusammenführen.

Hier finden Sie eine Übersicht über einen Anwendungsfall, in dem `RedshiftCopyActivity` verwendet wird:

1. Verwenden Sie zunächst AWS Data Pipeline , um Ihre Daten in Amazon S3 bereitzustellen. 

1. Wird verwendet`RedshiftCopyActivity`, um die Daten von Amazon RDS und Amazon EMR nach Amazon Redshift zu verschieben.

   Auf diese Weise können Sie Ihre Daten in Amazon Redshift laden, wo Sie sie analysieren können.

1. Wird verwendet[SqlActivity](dp-object-sqlactivity.md), um SQL-Abfragen für die Daten durchzuführen, die Sie in Amazon Redshift geladen haben.

 Darüber hinaus unterstützt `RedshiftCopyActivity` Ihre Arbeit mit einem `S3DataNode`, weil es eine Manifestdatei unterstützt. Weitere Informationen finden Sie unter [S3 DataNode](dp-object-s3datanode.md).

## Beispiel
<a name="redshiftcopyactivity-example"></a>

Es folgt ein Beispiel für diesen Objekttyp. 

Um die Formatkonvertierung sicherzustellen, verwendet dieses Beispiel [EMPTYASNULL](https://docs.aws.amazon.com/redshift/latest/dg/copy-parameters-data-conversion.html#copy-emptyasnull) und [IGNOREBLANKLINES](https://docs.aws.amazon.com/redshift/latest/dg/copy-parameters-data-conversion.html#copy-ignoreblanklines), spezielle Konvertierungsparameter in `commandOptions`. Weitere Informationen finden Sie unter [Datenkonvertierungsparameter](https://docs.aws.amazon.com/redshift/latest/dg/copy-parameters-data-conversion.html) im *Amazon Redshift Database Developer Guide*.

```
{
  "id" : "S3ToRedshiftCopyActivity",
  "type" : "RedshiftCopyActivity",
  "input" : { "ref": "MyS3DataNode" },
  "output" : { "ref": "MyRedshiftDataNode" },
  "insertMode" : "KEEP_EXISTING",
  "schedule" : { "ref": "Hour" },
  "runsOn" : { "ref": "MyEc2Resource" },
  "commandOptions": ["EMPTYASNULL", "IGNOREBLANKLINES"]
}
```

Die folgende Pipeline-Beispieldefinition zeigt eine Aktivität, die den Einfügemodus `APPEND` nutzt:

```
{
  "objects": [
    {
      "id": "CSVId1",
      "name": "DefaultCSV1",
      "type": "CSV"
    },
    {
      "id": "RedshiftDatabaseId1",
      "databaseName": "dbname",
      "username": "user",
      "name": "DefaultRedshiftDatabase1",
      "*password": "password",
      "type": "RedshiftDatabase",
      "clusterId": "redshiftclusterId"
    },
    {
      "id": "Default",
      "scheduleType": "timeseries",
      "failureAndRerunMode": "CASCADE",
      "name": "Default",
      "role": "DataPipelineDefaultRole",
      "resourceRole": "DataPipelineDefaultResourceRole"
    },
    {
      "id": "RedshiftDataNodeId1",
      "schedule": {
        "ref": "ScheduleId1"
      },
      "tableName": "orders",
      "name": "DefaultRedshiftDataNode1",
      "createTableSql": "create table StructuredLogs (requestBeginTime CHAR(30) PRIMARY KEY DISTKEY SORTKEY, requestEndTime CHAR(30), hostname CHAR(100), requestDate varchar(20));",
      "type": "RedshiftDataNode",
      "database": {
        "ref": "RedshiftDatabaseId1"
      }
    },
    {
      "id": "Ec2ResourceId1",
      "schedule": {
        "ref": "ScheduleId1"
      },
      "securityGroups": "MySecurityGroup",
      "name": "DefaultEc2Resource1",
      "role": "DataPipelineDefaultRole",
      "logUri": "s3://myLogs",
      "resourceRole": "DataPipelineDefaultResourceRole",
      "type": "Ec2Resource"
    },
    {
      "id": "ScheduleId1",
      "startDateTime": "yyyy-mm-ddT00:00:00",
      "name": "DefaultSchedule1",
      "type": "Schedule",
      "period": "period",
      "endDateTime": "yyyy-mm-ddT00:00:00"
    },
    {
      "id": "S3DataNodeId1",
      "schedule": {
        "ref": "ScheduleId1"
      },
      "filePath": "s3://datapipeline-us-east-1/samples/hive-ads-samples.csv",
      "name": "DefaultS3DataNode1",
      "dataFormat": {
        "ref": "CSVId1"
      },
      "type": "S3DataNode"
    },
    {
      "id": "RedshiftCopyActivityId1",
      "input": {
        "ref": "S3DataNodeId1"
      },
      "schedule": {
        "ref": "ScheduleId1"
      },
      "insertMode": "APPEND",
      "name": "DefaultRedshiftCopyActivity1",
      "runsOn": {
        "ref": "Ec2ResourceId1"
      },
      "type": "RedshiftCopyActivity",
      "output": {
        "ref": "RedshiftDataNodeId1"
      }
    }
  ]
}
```

Der `APPEND`-Vorgang fügt Elemente zu einer Tabelle hinzu, unabhängig von Primär- oder Sortierschlüsseln. Bei der folgenden Tabelle können Sie beispielsweise einen Datensatz mit demselben ID- und Benutzer-Wert anfügen.

```
ID(PK)     USER
1          aaa
2          bbb
```

Sie können einen Datensatz mit demselben ID- und Benutzer-Wert anfügen:

```
ID(PK)     USER
1          aaa
2          bbb
1          aaa
```

**Anmerkung**  
Wenn ein `APPEND`-Vorgang unterbrochen und wieder aufgenommen wird, ist es möglich, dass die entstandene Wiederausführungs-Pipeline von Anfang an Anfügungen vornimmt. Dies kann zu weiteren Duplizierungen führen. Sie sollten dieses Verhalten kennen, besonders, wenn Sie Logik verwenden, die die Anzahl an Zeilen zählt.

Ein Tutorial finden Sie unter [Daten mithilfe von Amazon Redshift nach Amazon Redshift kopieren AWS Data Pipeline](dp-copydata-redshift.md).

## Syntax
<a name="redshiftcopyactivity-syntax"></a>


****  

| Pflichtfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| insertMode |   Legt fest, AWS Data Pipeline was mit bereits vorhandenen Daten in der Zieltabelle geschehen soll, die sich mit Zeilen in den zu ladenden Daten überschneiden. Gültige Werte sind: `KEEP_EXISTING`, `OVERWRITE_EXISTING`, `TRUNCATE` und `APPEND`. `KEEP_EXISTING` fügt der Tabelle neue Zeilen hinzu und lässt die vorhandenen Zeilen unverändert. `KEEP_EXISTING` und` OVERWRITE_EXISTING` verwenden den Primärschlüssel, Sortier- und Verteilschlüssel, um zu identifizieren, welche eingehende Zeilen mit vorhandenen Zeilen übereinstimmen. Weitere Informationen finden Sie unter [Aktualisieren und Einfügen neuer Daten](https://docs.aws.amazon.com/redshift/latest/dg/t_updating-inserting-using-staging-tables-.html) im Amazon Redshift *Database Developer Guide*.  `TRUNCATE` löscht alle Daten in der Zieltabelle, bevor die neuen Daten hinzugefügt werden.  `APPEND` fügt alle Datensätze am Ende der Redshift-Tabelle an. `APPEND` setzt keinen Primär-, Verteilungs- oder Sortierschlüssel voraus. Es können also Zeilen hinzugefügt werden, bei denen es sich um potenzielle Duplikate handelt.  | Aufzählung | 

 


****  

| Objektaufruf-Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| schedule |  Dieses Objekt wird innerhalb der Ausführung eines Zeitplanintervalls aufgerufen.  Sie müssen einen Zeitplanverweis auf ein anderes Objekt angeben, um die Abhängigkeitsausführungsreihenfolge für dieses Objekt festzulegen.  In den meisten Fällen empfehlen wir, den Zeitplanverweis auf das Standard-Pipeline-Objekt zu setzen, damit alle Objekte diesen Zeitplan erben. Sie können beispielsweise einen Zeitplan explizit für das Objekt festlegen, indem Sie `"schedule": {"ref": "DefaultSchedule"}` angeben.  Wenn der Hauptplan in Ihrer Pipeline verschachtelte Zeitpläne enthält, erstellen Sie ein übergeordnetes Objekt mit Zeitplanreferenz.  Weitere Informationen zu optionalen Zeitplankonfigurationen finden Sie unter [Zeitplan](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html).   | Referenzobjekt, wie z. B.: "schedule":\$1"ref":"myScheduleId"\$1 | 

 


****  

| Erforderliche Gruppe (mindestens eine der folgenden ist erforderlich) | Description | Slot-Typ | 
| --- | --- | --- | 
| runsOn | Die Rechenressource zum Ausführen der Aktivität oder des Befehls. Beispiel: Amazon EC2 Instance oder Amazon EMR-Cluster. | Referenzobjekt, z. B. „runsOn“: \$1"ref“:“ myResourceId „\$1 | 
| workerGroup | Die Auftragnehmergruppe. Dies wird für Routing-Aufgaben verwendet. Wenn Sie einen runsOn-Wert angeben und workerGroup vorhanden ist, wird workerGroup ignoriert. | Zeichenfolge | 

 


****  

| Optionale Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| attemptStatus | Zuletzt gemeldeter Status von der Remote-Aktivität. | Zeichenfolge | 
| attemptTimeout | Timeout für die Remote-Arbeit abgeschlossen. Wenn diese Option aktiviert ist, kann eine Remote-Aktivität, die nicht innerhalb der festgelegten Startzeit abgeschlossen wird, wiederholt werden. | Zeitraum | 
| commandOptions |  Verwendet Parameter, die während des `COPY` Vorgangs an den Amazon Redshift Redshift-Datenknoten übergeben werden. Informationen zu Parametern finden Sie unter [COPY](https://docs.aws.amazon.com/redshift/latest/dg/r_COPY.html) im Amazon Redshift *Database Developer Guide*. Wenn `COPY` die Tabelle lädt, versucht der Befehl implizit, die Zeichenfolgen in den Quelldaten in den Datentyp der Zielspalte zu konvertieren. Zusätzlich zu den Standard-Datenkonvertierungen, die automatisch stattfinden, wenn Fehler erhalten oder andere Konvertierungen benötigen, können Sie zusätzliche Umrechnungsparameter angeben. Weitere Informationen finden Sie unter [Datenkonvertierungsparameter](https://docs.aws.amazon.com/redshift/latest/dg/copy-parameters-data-conversion.html) im Amazon Redshift *Database Developer Guide*. Wenn dem Eingabe- oder Ausgabedatenknoten ein Datenformat zugeordnet ist, werden die angegebenen Parameter ignoriert.  Da beim Kopieren die Daten zunächst mit dem Befehl `COPY` in eine Staging-Tabelle eingefügt und danach mit dem Befehl `INSERT` von der Staging- in die Zieltabelle kopiert werden, können einige `COPY`-Parameter nicht verwendet werden (z. B. die Fähigkeit des `COPY`-Befehls, der das automatische Komprimieren der Tabelle aktiviert). Wenn die Tabelle komprimiert werden soll, fügen Sie der Anweisung `CREATE TABLE` Angaben zur Spaltencodierung hinzu.  In einigen Fällen, in denen Daten aus dem Amazon Redshift-Cluster entladen und Dateien in Amazon S3 erstellt werden müssen, ist das außerdem auf den `UNLOAD` Betrieb von Amazon Redshift `RedshiftCopyActivity` angewiesen. Zur Verbesserung der Leistung beim Kopieren und Entladen geben Sie den `PARALLEL OFF`-Parameter aus dem `UNLOAD` Befehl an. Informationen zu Parametern finden Sie unter [UNLOAD](https://docs.aws.amazon.com/redshift/latest/dg/r_UNLOAD.html) im Amazon Redshift *Database Developer Guide*.  | Zeichenfolge | 
| dependsOn | Angeben der Abhängigkeit von einem anderen ausführbaren Objekt. | Referenzobjekt: "dependsOn":\$1"ref":"myActivityId"\$1 | 
| failureAndRerunModus | Beschreibt das Verhalten des Konsumentenknotens, wenn Abhängigkeiten fehlschlagen oder erneut ausgeführt werden | Aufzählung | 
| input | Der Eingabedatenknoten. Die Datenquelle kann Amazon S3, DynamoDB oder Amazon Redshift sein. | Referenzobjekt:  "input":\$1"ref":"myDataNodeId"\$1 | 
| lateAfterTimeout | Die nach dem Start der Pipeline verstrichene Zeit, innerhalb der das Objekt abgeschlossen werden muss. Sie wird nur ausgelöst, wenn der Zeitplantyp nicht auf eingestellt ist. ondemand | Zeitraum | 
| maxActiveInstances | Die maximale Anzahl gleichzeitiger aktiver Instances einer Komponente. Wiederholungen zählen nicht zur Anzahl der aktiven Instances. | Ganzzahl | 
| maximumRetries | Maximale Anzahl von Versuchen bei Ausfällen | Ganzzahl | 
| onFail | Eine Aktion, die ausgeführt werden soll, wenn das aktuelle Objekt fehlschlägt. | Referenzobjekt: "onFail":\$1"ref":"myActionId"\$1 | 
| onLateAction | Aktionen, die ausgelöst werden sollen, wenn ein Objekt noch nicht geplant oder noch nicht abgeschlossen wurde. | Referenzobjekt:  "onLateAction":\$1"ref":"myActionId"\$1 | 
| onSuccess | Eine Aktion, die ausgeführt wird, wenn das aktuelle Objekt erfolgreich ist. | Referenzobjekt:  "onSuccess":\$1"ref":"myActionId"\$1 | 
| output | Der Ausgabedatenknoten. Der Ausgabespeicherort kann Amazon S3 oder Amazon Redshift sein. | Referenzobjekt:  "output":\$1"ref":"myDataNodeId"\$1 | 
| übergeordneter | Übergeordnetes Objekt des aktuellen Objekts, aus dem Slots übernommen werden. | Referenzobjekt: "parent":\$1"ref":"myBaseObjectId"\$1 | 
| pipelineLogUri | Die S3-URI (z. B. 's3://BucketName/Key/ ') zum Hochladen von Protokollen für die Pipeline. | Zeichenfolge | 
| precondition | Legen Sie optional eine Vorbedingung fest. Ein Datenknoten ist solange nicht als "BEREIT" markiert, bis alle Vorbedingungen erfüllt sind. | Referenzobjekt: "precondition":\$1"ref":"myPreconditionId"\$1 | 
| Warteschlange |  Entspricht der `query_group ` Einstellung in Amazon Redshift, mit der Sie gleichzeitige Aktivitäten anhand ihrer Platzierung in Warteschlangen zuweisen und priorisieren können.  In Amazon Redshift sind bis zu 15 gleichzeitige Verbindungen möglich. Weitere Informationen finden Sie unter [Zuweisen von Abfragen zu Warteschlangen](https://docs.aws.amazon.com/AmazonRDS/latest/DeveloperGuide/cm-c-executing-queries.html) im Amazon RDS *Database Developer Guide*.  | Zeichenfolge | 
| reportProgressTimeout |  Timeout für aufeinanderfolgende Aufrufe von Remote-Arbeit in `reportProgress`.  Wenn diese Option aktiviert ist, werden Remote-Aktivitäten, die den Fortschritt für den angegebenen Zeitraum nicht melden, als fehlgeschlagen angesehen und es wird erneut versucht.  | Zeitraum | 
| retryDelay | Die Zeitüberschreitungsdauer zwischen zwei Wiederholungsversuchen. | Zeitraum | 
| scheduleType |  Mit dieser Option können Sie angeben, ob der Plan für die Objekte in Ihrer Pipeline vorgesehen ist. Werte sind `cron`, `ondemand` und `timeseries`. Die `timeseries` Planung bedeutet, dass Instances am Ende jedes Intervalls geplant sind. Die `Cron` Planung bedeutet, dass Instances am Anfang jedes Intervalls geplant sind.  Ein `ondemand`-Zeitplan ermöglicht es Ihnen, eine Pipeline einmal pro Aktivierung auszuführen. Dies bedeutet, dass Sie die Pipeline nicht klonen oder neu erstellen müssen, um sie erneut auszuführen.  Um `ondemand`-Pipelines zu verwenden, rufen Sie einfach den `ActivatePipeline`-Vorgang für jeden nachfolgenden Lauf auf.  Wenn Sie einen `ondemand`-Zeitplan verwenden, müssen Sie ihn im Standardobjekt angeben, und er muss der einzige für die Objekte in der Pipeline angegebene `scheduleType` sein.   | Aufzählung | 
| transformSql |  Der zum Transformieren der Eingabedaten verwendete `SQL SELECT`-Ausdruck.  Führen Sie den Ausdruck `transformSql` in der Tabelle mit dem Namen `staging` aus.  Wenn Sie Daten aus DynamoDB oder Amazon S3 kopieren, AWS Data Pipeline erstellt eine Tabelle namens „Staging“ und lädt zunächst Daten hinein. Die Daten dieser Tabelle werden zum Aktualisieren der Zieltabelle verwendet.  Das Ausgabe-Schema von `transformSql` muss mit dem Schema der endgültigen Zieltabelle übereinstimmen. Wenn Sie die Option `transformSql` angeben, wird von der angegebenen SQL-Anweisung eine zweite Staging-Tabelle erstellt. Die Daten dieser zweiten Staging-Tabelle werden anschließend in die endgültige Zieltabelle übernommen.  | Zeichenfolge | 

 


****  

| Laufzeitfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @activeInstances | Liste der aktuell geplanten aktiven Instance-Objekte. | Referenzobjekt: "activeInstances":\$1"ref":"myRunnableObjectId"\$1 | 
| @actualEndTime | Zeitpunkt, zu dem die Ausführung dieses Objekts abgeschlossen wurde. | DateTime | 
| @actualStartTime | Zeitpunkt, zu dem die Ausführung dieses Objekts gestartet wurde. | DateTime | 
| cancellationReason | Die cancellationReason, wenn dieses Objekt storniert wurde. | Zeichenfolge | 
| @cascadeFailedOn | Beschreibung der Abhängigkeitskette, bei der das Objekt fehlgeschlagen ist. | Referenzobjekt:  "cascadeFailedOn":\$1"ref":"myRunnableObjectId"\$1 | 
| emrStepLog | EMR-Schrittprotokolle nur bei EMR-Aktivitätsversuchen verfügbar | Zeichenfolge | 
| errorId | Die errorId, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorMessage | Die errorMessage, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorStackTrace | Die Fehler-Stack-Ablaufverfolgung., wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| @finishedTime | Der Zeitpunkt, zu der dieses Objekt seine Ausführung beendet hat. | DateTime | 
| hadoopJobLog | Hadoop-Jobprotokolle für Versuche für EMR-basierte Aktivitäten verfügbar. | Zeichenfolge | 
| @healthStatus | Der Integritätsstatus des Objekts, der Erfolg oder Misserfolg der letzten Objekt-Instance widerspiegelt, die einen beendeten Zustand erreicht hat. | Zeichenfolge | 
| @healthStatusFromInstanceId | Id des Objekts der letzten Instance, das einen beendeten Zustand erreicht hat. | Zeichenfolge | 
| @ Zeit healthStatusUpdated | Zeitpunkt, zu dem der Servicestatus beim letzten Mal aktualisiert wurde. | DateTime | 
| hostname | Der Hostname des Clients, der den Aufgabenversuch aufnimmt. | Zeichenfolge | 
| @lastDeactivatedTime | Zeitpunkt, zu dem dieses Objekt zuletzt deaktiviert wurde. | DateTime | 
| @ latestCompletedRun Zeit | Zeitpunkt des letzten Laufs, für den die Ausführung abgeschlossen wurde. | DateTime | 
| @latestRunTime | Zeitpunkt des letzten Laufs, für den die Ausführung geplant war. | DateTime | 
| @nextRunTime | Zeitpunkt des Laufs, der als nächstes geplant werden soll | DateTime | 
| reportProgressTime | Der letzte Zeitpunkt, an dem die Remote-Aktivität einen Fortschritt gemeldet hat. | DateTime | 
| @scheduledEndTime | Endzeit für Objekt einplanen. | DateTime | 
| @scheduledStartTime | Startzeit für Objekt einplanen. | DateTime | 
| @Status | Der Status des Objekts. | Zeichenfolge | 
| @Version | Pipeline-Version, mit der das Objekt erstellt wurde. | Zeichenfolge | 
| @waitingOn | Beschreibung der Liste der Abhängigkeiten, auf die dieses Objekt wartet. | Referenzobjekt:  "waitingOn":\$1"ref":"myRunnableObjectId"\$1 | 

 


****  

| Systemfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @error | Fehler mit einer Beschreibung des falsch formatierten Objekts. | Zeichenfolge | 
| @pipelineId | Id der Pipeline, zu der dieses Objekt gehört. | Zeichenfolge | 
| @sphere | Die Sphäre eines Objekts. Gibt seine Position im Lebenszyklus an. Beispielsweise ergeben Komponentenobjekte Instance-Objekte, die Versuchsobjekte ausführen. | Zeichenfolge | 

# ShellCommandActivity
<a name="dp-object-shellcommandactivity"></a>

 Führt einen Befehl oder ein Skript aus. Mit `ShellCommandActivity` können Sie Zeitreihen oder Cron-ähnliche geplante Aufgaben ausführen. 

Wenn das `stage` Feld auf true gesetzt ist und mit einem verwendet wird`S3DataNode`, `ShellCommandActivity` unterstützt es das Konzept der Datenbereitstellung, was bedeutet, dass Sie Daten von Amazon S3 an einen Staging-Speicherort wie Amazon EC2 oder Ihre lokale Umgebung verschieben können, die Daten mithilfe von Skripten und dem `ShellCommandActivity` bearbeiten und sie zurück zu Amazon S3 verschieben können. 

Wenn in diesem Fall Ihr Shell-Befehl mit einem Eingabe-`S3DataNode` verbunden ist, werden Ihre Shell-Skripts mit `${INPUT1_STAGING_DIR}`, `${INPUT2_STAGING_DIR}` und anderen Feldern ausgeführt, die auf die `ShellCommandActivity`-Eingabefelder verweisen. 

In ähnlicher Weise kann die Ausgabe des Shell-Befehls in einem Ausgabeverzeichnis bereitgestellt werden, um automatisch an Amazon S3 weitergeleitet zu werden, auf das mit, verwiesen wird `${OUTPUT1_STAGING_DIR}``${OUTPUT2_STAGING_DIR}`, usw. 

Diese Ausdrücke können als Befehlszeilenargumente zum Shell-Befehl weitergeleitet werden, sodass Sie sie für Datentransformationslogik verwenden können.

`ShellCommandActivity` gibt Linux-ähnliche Fehlercodes und Zeichenfolgen aus. Wenn `ShellCommandActivity` fehlschlägt, ist der angezeigte `error` ein Wert ungleich Null.

## Beispiel
<a name="shellcommandactivity-example"></a>

Es folgt ein Beispiel für diesen Objekttyp.

```
{
  "id" : "CreateDirectory",
  "type" : "ShellCommandActivity",
  "command" : "mkdir new-directory"
}
```

## Syntax
<a name="shellcommandactivity-syntax"></a>


****  

| Objektaufruf-Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| schedule |  Dieses Objekt wird innerhalb der Ausführung eines `schedule`-Intervalls aufgerufen. Um die Abhängigkeitsausführungsreihenfolge für dieses Objekt festzulegen, geben Sie eine `schedule`-Referenz auf ein anderes Objekt an.  Um diese Anforderung zu erfüllen, setzen Sie explizit einen `schedule` auf das Objekt, z. B. mit `"schedule": {"ref": "DefaultSchedule"}`.  In den meisten Fällen ist es besser, die `schedule`-Referenz auf das Standard-Pipeline-Objekt zu setzen, damit alle Objekte diesen Zeitplan erben. Besteht die Pipeline aus einem Baum mit Zeitplänen (Zeitpläne innerhalb des Hauptplans), erstellen Sie ein übergeordnetes Objekt, das eine Zeitplanreferenz besitzt.  Um die Last zu verteilen, AWS Data Pipeline erstellt physische Objekte etwas früher als geplant, führt sie aber termingerecht aus.  Weitere Informationen zu optionalen Beispiel-Zeitplankonfigurationen finden Sie unter [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html).  | Referenzobjekt, z. B. „schedule“: \$1"ref“:“ myScheduleId „\$1 | 

 


****  

| Erforderliche Gruppe (mindestens eine der folgenden ist erforderlich) | Description | Slot-Typ | 
| --- | --- | --- | 
| command | Den auszuführenden Befehl. Verwenden Sie \$1, um auf Positionsparameter zu verweisen, und geben Sie mit scriptArgument die Parameter für den Befehl an. Dieser Wert und alle zugehörigen Parameter müssen in der Umgebung funktionieren, in der Sie den Task-Runner ausführen. | Zeichenfolge | 
| scriptUri | Ein Amazon S3-URI-Pfad für eine Datei, die heruntergeladen und als Shell-Befehl ausgeführt werden soll. Geben Sie nur ein Feld scriptUri oder command an. scriptUri kann keine Parameter verwenden. Verwenden Sie stattdessen command. | Zeichenfolge | 

 


****  

| Erforderliche Gruppe (mindestens eine der folgenden ist erforderlich) | Description | Slot-Typ | 
| --- | --- | --- | 
| runsOn | Die Rechenressource zur Ausführung der Aktivität oder des Befehls, z. B. eine Amazon EC2 EC2-Instance oder ein Amazon EMR-Cluster. | Referenzobjekt, z. B. „runsOn“: \$1"ref“:“ myResourceId „\$1 | 
| workerGroup | Wird für Routing-Aufgaben verwendet. Wenn Sie einen runsOn-Wert angeben und workerGroup vorhanden ist, wird ignoriert.workerGroup | Zeichenfolge | 

 


****  

| Optionale Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| attemptStatus | Der zuletzt gemeldete Status von der Remote-Aktivität. | Zeichenfolge | 
| attemptTimeout | Das Timeout für die Fertigstellung der Remote-Arbeit. Wenn diese Option aktiviert ist, kann eine Remote-Aktivität, die nicht innerhalb der festgelegten Startzeit abgeschlossen wird, wiederholt werden. | Zeitraum | 
| dependsOn | Gibt eine Abhängigkeit von einem anderen ausführbaren Objekt an. | Referenzobjekt, z. B. „dependSon“: \$1"ref“:“ myActivityId „\$1 | 
| failureAndRerunModus | Beschreibt das Verhalten des Konsumentenknotens, wenn Abhängigkeiten fehlschlagen oder erneut ausgeführt werden. | Aufzählung | 
| input | Der Speicherort der Eingabedaten. | Referenzobjekt, z. B. „input“: \$1"ref“:“ myDataNode Id "\$1 | 
| lateAfterTimeout | Die nach dem Start der Pipeline verstrichene Zeit, innerhalb der das Objekt abgeschlossen werden muss. Sie wird nur ausgelöst, wenn der Zeitplantyp nicht auf eingestellt ist. ondemand | Zeitraum | 
| maxActiveInstances | Die maximale Anzahl gleichzeitiger aktiver Instances einer Komponente. Wiederholungen zählen nicht zur Anzahl der aktiven Instances. | Ganzzahl | 
| maximumRetries | Die maximale Anzahl von Versuchen bei Ausfällen. | Ganzzahl | 
| onFail | Eine Aktion, die ausgeführt werden soll, wenn das aktuelle Objekt fehlschlägt. | Referenzobjekt, z. B. „onFail“: \$1"ref“:“ myActionId „\$1 | 
| onLateAction | Aktionen, die ausgelöst werden sollen, wenn ein Objekt noch nicht geplant oder noch nicht abgeschlossen wurde. | Referenzobjekt, z. B. "onLateAction„: \$1" ref“:“ myActionId „\$1 | 
| onSuccess | Eine Aktion, die ausgeführt wird, wenn das aktuelle Objekt erfolgreich ist. | Referenzobjekt, z. B. „onSuccess“: \$1"ref“:“ myActionId „\$1 | 
| output | Der Speicherort der Ausgabedaten.  | Referenzobjekt, z. B. „output“: \$1"ref“:“ myDataNode Id "\$1 | 
| übergeordneter | Das übergeordnetes Objekt des aktuellen Objekts, aus dem Slots übernommen werden. | Referenzobjekt, z. B. „parent“: \$1"ref“:“ myBaseObject Id "\$1 | 
| pipelineLogUri | Die Amazon S3 S3-URI, z. B. 's3://BucketName/Key/' für das Hochladen von Protokollen für die Pipeline. | Zeichenfolge | 
| precondition | Definiert optional eine Vorbedingung. Ein Datenknoten ist solange nicht als "BEREIT" markiert, bis alle Vorbedingungen erfüllt sind. | Referenzobjekt, z. B. „precondition“: \$1"ref“:“ myPreconditionId „\$1 | 
| reportProgressTimeout | Das Timeout für aufeinanderfolgende Aufrufe von reportProgress durch Remote-Aktivitäten. Wenn diese Option aktiviert ist, werden Remote-Aktivitäten, die den Fortschritt für den angegebenen Zeitraum nicht melden, als fehlgeschlagen angesehen und es wird erneut versucht. | Zeitraum | 
| retryDelay | Die Zeitüberschreitungsdauer zwischen zwei Wiederholungsversuchen. | Zeitraum | 
| scheduleType |  Gestattet Ihnen, anzugeben, ob die Objekte in Ihrer Pipeline-Definition am Anfang des Intervalls oder am Ende des Intervalls geplant werden sollen.  Die Werte sind: `cron`, `ondemand` und `timeseries`. `timeseries` bedeutet, dass Instances am Ende jedes Intervalls geplant sind.  `Cron` bedeutet, dass Instances am Anfang jedes Intervalls geplant sind.  `ondemand` bedeutet, Sie können eine Pipeline jeweils einmal pro Aktivierung auszuführen. Dies bedeutet, dass Sie die Pipeline nicht klonen oder neu erstellen müssen, um sie erneut auszuführen. Wenn Sie einen `ondemand`-Zeitplan verwenden, geben Sie ihn im Standardobjekt als einzigen `scheduleType` für Objekte in der Pipeline an. Um `ondemand`-Pipelines zu verwenden, rufen Sie einfach den `ActivatePipeline`-Vorgang für jeden nachfolgenden Lauf auf.   | Aufzählung | 
| scriptArgument | Ein Zeichenfolgenarray im JSON-Format, das dem von dem Befehl angegebenen Befehl übergeben wird. Ist der Befehl beispielsweise echo \$11 \$12, geben Sie scriptArgument als "param1", "param2" an. Für mehrere Argumente und Parameter übergeben Sie das scriptArgument wie folgt:  "scriptArgument":"arg1","scriptArgument":"param1","scriptArgument":"arg2","scriptArgument":"param2" Das scriptArgument ist command. Die Verwendung durch einen Fehler scriptUri verursacht. | Zeichenfolge | 
| stage | Legt fest, ob Staging aktiviert ist, und gewährt Ihren Shell-Befehlen den Zugriff auf Staging-Datenvariablen, z. B. \$1\$1INPUT1\$1STAGING\$1DIR\$1 und  \$1\$1OUTPUT1\$1STAGING\$1DIR\$1. | Boolesch | 
| stderr | Der -Pfad, zu dem Systemfehlermeldungen vom Befehl umgeleitet werden. Wenn Sie das runsOn Feld verwenden, muss es sich um einen Amazon S3 S3-Pfad handeln, da die Ressource, auf der Ihre Aktivität ausgeführt wird, vorübergehend ist. Wenn Sie jedoch das Feld workerGroup angeben, ist ein lokaler Dateipfad zulässig. | Zeichenfolge | 
| stdout | Der Amazon S3 S3-Pfad, der die umgeleitete Ausgabe des Befehls empfängt. Wenn Sie das runsOn Feld verwenden, muss es sich um einen Amazon S3 S3-Pfad handeln, da die Ressource, auf der Ihre Aktivität ausgeführt wird, vorübergehend ist. Wenn Sie jedoch das Feld workerGroup angeben, ist ein lokaler Dateipfad zulässig. | Zeichenfolge | 

 


****  

| Laufzeitfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @activeInstances | Die Liste der aktuell geplanten aktiven Instance-Objekte. | Referenzobjekt, z. B. „activeInstances“: \$1"ref“:“ Id "\$1 myRunnableObject | 
| @actualEndTime | Der Zeitpunkt, zu dem die Ausführung dieses Objekts abgeschlossen wurde. | DateTime | 
| @actualStartTime | Der Zeitpunkt, zu dem die Ausführung dieses Objekts gestartet wurde. | DateTime | 
| cancellationReason | Der cancellationReason, wenn dieses Objekt storniert wurde. | Zeichenfolge | 
| @cascadeFailedOn | Die Beschreibung der Zuständigkeitskette, die den Objektausfall verursacht hat. | Referenzobjekt, z. B. "cascadeFailedOn„: \$1" ref“:“ myRunnableObject Id "\$1 | 
| emrStepLog | Amazon EMR-Schrittprotokolle sind nur bei Amazon EMR-Aktivitätsversuchen verfügbar. | Zeichenfolge | 
| errorId | Die errorId, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorMessage | Die errorMessage, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorStackTrace | Die Fehler-Stack-Ablaufverfolgung., wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| @finishedTime | Der Zeitpunkt, zu der das Objekt seine Ausführung beendet hat. | DateTime | 
| hadoopJobLog | Hadoop-Jobprotokolle sind bei Versuchen für Amazon EMR-basierte Aktivitäten verfügbar. | Zeichenfolge | 
| @healthStatus | Der Integritätsstatus des Objekts, der Erfolg oder Misserfolg der letzten Objekt-Instance widerspiegelt, die einen beendeten Zustand erreicht hat. | Zeichenfolge | 
| @healthStatusFromInstanceId | Die ID des Objekts der letzten Instance, das einen beendeten Zustand erreicht hat. | Zeichenfolge | 
| @ Zeit healthStatusUpdated | Der Zeitpunkt, zu dem der Servicestatus beim letzten Mal aktualisiert wurde. | DateTime | 
| hostname | Der Hostname des Clients, der den Aufgabenversuch aufnimmt. | Zeichenfolge | 
| @lastDeactivatedTime | Zeitpunkt, zu dem dieses Objekt zuletzt deaktiviert wurde. | DateTime | 
| @ latestCompletedRun Zeit | Der Zeitpunkt des letzten Laufs, für den die Ausführung abgeschlossen wurde. | DateTime | 
| @latestRunTime | Der Zeitpunkt des letzten Laufs, für den die Ausführung geplant war. | DateTime | 
| @nextRunTime | Der Zeitpunkt des Laufs, der als nächstes geplant werden soll | DateTime | 
| reportProgressTime | Der letzte Zeitpunkt, an dem die Remote-Aktivität einen Fortschritt gemeldet hat. | DateTime | 
| @scheduledEndTime | Die geplante Endzeit für das Objekt. | DateTime | 
| @scheduledStartTime | Die geplante Startzeit für das Objekt. | DateTime | 
| @Status | Der Status des Objekts. | Zeichenfolge | 
| @Version | Die AWS Data Pipeline Version, mit der das Objekt erstellt wurde. | Zeichenfolge | 
| @waitingOn | Die Beschreibung der Liste der Abhängigkeiten, auf die dieses Objekt wartet. | Referenzobjekt, z. B. „WaitingOn“: \$1"ref“:“ myRunnableObject Id "\$1 | 

 


****  

| Systemfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @error | Der Fehler mit einer Beschreibung des falsch formatierten Objekts. | Zeichenfolge | 
| @pipelineId | Die Id der Pipeline, zu der dieses Objekt gehört. | Zeichenfolge | 
| @sphere | Die Position eines Objekts im Lebenszyklus. Komponentenobjekte ergeben Instance-Objekte, die Versuchsobjekte ausführen. | Zeichenfolge | 

## Weitere Informationen finden Sie unter:
<a name="shellcommandactivity-seealso"></a>
+ [CopyActivity](dp-object-copyactivity.md)
+ [EmrActivity](dp-object-emractivity.md)

# SqlActivity
<a name="dp-object-sqlactivity"></a>

Führt eine SQL-Abfrage (Skript) auf einer Datenbank aus.

## Beispiel
<a name="sqlactivity-example"></a>

Es folgt ein Beispiel für diesen Objekttyp.

```
{
  "id" : "MySqlActivity",
  "type" : "SqlActivity",
  "database" : { "ref": "MyDatabaseID" },
  "script" : "SQLQuery" | "scriptUri" : s3://scriptBucket/query.sql,
  "schedule" : { "ref": "MyScheduleID" },
}
```

## Syntax
<a name="sqlactivity-syntax"></a>


****  

| Pflichtfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| Datenbank | Die Datenbank für die Ausführung des bereitgestellten SQL-Skripts. | Referenzobjekt, z. B. „database“: \$1"ref“:“ myDatabaseId „\$1 | 

 


****  

| Objektaufruf-Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| schedule |  Dieses Objekt wird innerhalb der Ausführung eines Zeitplanintervalls aufgerufen. Sie müssen einen Zeitplanverweis auf ein anderes Objekt angeben, um die Abhängigkeitsausführungsreihenfolge für dieses Objekt festzulegen. Sie können einen Zeitplan explizit für das Objekt festlegen, indem Sie `"schedule": {"ref": "DefaultSchedule"}` angeben.  In den meisten Fällen ist es besser, den Zeitplanverweis auf das Standard-Pipeline-Objekt zu setzen, damit alle Objekte diesen Zeitplan erben.  Wenn die Pipeline über einen Baum über in den Hauptplan verschachtelte Zeitplänen, können Benutzer ein übergeordnetes Objekt mit Zeitplanreferenz erstellen. Weitere Informationen zu optionalen Beispiel-Zeitplankonfigurationen finden Sie unter [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html).  | Referenzobjekt, z. B. „schedule“: \$1"ref“:“ myScheduleId „\$1 | 

 


****  

| Erforderliche Gruppe (mindestens eine der folgenden ist erforderlich) | Description | Slot-Typ | 
| --- | --- | --- | 
| script | Das auszuführende SQL-Skript. Sie müssen das Skript oder scriptUri angeben. Wenn das Skript in Amazon S3 gespeichert ist, wird das Skript nicht als Ausdruck ausgewertet. Die Angabe mehrerer Werte für scriptArgument ist hilfreich, wenn das Skript in Amazon S3 gespeichert ist. | Zeichenfolge | 
| scriptUri | Ein URI, der den Speicherort eines SQL-Skripts angibt, das in dieser Aktivität ausgeführt wird. | Zeichenfolge | 

 


****  

| Erforderliche Gruppe (mindestens eine der folgenden ist erforderlich) | Description | Slot-Typ | 
| --- | --- | --- | 
| runsOn | Die Rechenressource zum Ausführen der Aktivität oder des Befehls. Beispiel: Amazon EC2 Instance oder Amazon EMR-Cluster. | Referenzobjekt, z. B. „runsOn“: \$1"ref“:“ myResourceId „\$1 | 
| workerGroup | Die Auftragnehmergruppe. Dies wird für Routing-Aufgaben verwendet. Wenn Sie einen runsOn-Wert angeben und workerGroup vorhanden ist, wird ignoriert.workerGroup | Zeichenfolge | 

 


****  

| Optionale Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| attemptStatus | Zuletzt gemeldeter Status von der Remote-Aktivität. | Zeichenfolge | 
| attemptTimeout | Timeout für die Remote-Arbeit abgeschlossen. Wenn diese Option aktiviert ist, kann eine Remote-Aktivität, die nicht innerhalb der festgelegten Startzeit abgeschlossen wird, wiederholt werden. | Zeitraum | 
| dependsOn | Angeben der Abhängigkeit von einem anderen ausführbaren Objekt. | Referenzobjekt, z. B. „dependSon“: \$1"ref“:“ myActivityId „\$1 | 
| failureAndRerunModus | Beschreibt das Verhalten des Konsumentenknotens, wenn Abhängigkeiten fehlschlagen oder erneut ausgeführt werden | Aufzählung | 
| input | Speicherort der Eingabedaten. | Referenzobjekt, z. B. „input“: \$1"ref“:“ myDataNode Id "\$1 | 
| lateAfterTimeout | Der Zeitraum seit dem geplanten Start der Pipeline, in dem die Objektausführung starten muss. | Zeitraum | 
| maxActiveInstances | Die maximale Anzahl gleichzeitiger aktiver Instances einer Komponente. Wiederholungen zählen nicht zur Anzahl der aktiven Instances. | Ganzzahl | 
| maximumRetries | Maximale Anzahl von Versuchen bei Ausfällen | Ganzzahl | 
| onFail | Eine Aktion, die ausgeführt werden soll, wenn das aktuelle Objekt fehlschlägt. | Referenzobjekt, z. B. „onFail“: \$1"ref“:“ myActionId „\$1 | 
| onLateAction | Aktionen, die ausgelöst werden sollen, wenn ein Objekt in dem durch 'lateAfterTimeout' angegebenen Zeitraum seit dem geplanten Start der Pipeline noch nicht geplant oder immer noch nicht abgeschlossen wurde. | Referenzobjekt, z. B. "onLateAction„: \$1" ref“:“ myActionId „\$1 | 
| onSuccess | Eine Aktion, die ausgeführt wird, wenn das aktuelle Objekt erfolgreich ist. | Referenzobjekt, z. B. „onSuccess“: \$1"ref“:“ myActionId „\$1 | 
| output | Speicherort der Ausgabedaten. Dies ist nur nützlich, um innerhalb eines Skripts zu referenzieren (z. B.\$1\$1output.tablename\$1) und um die Ausgabetabelle zu erstellen, indem 'createTableSql' im Ausgabedatenknoten gesetzt wird. Die Ausgabe der SQL-Abfrage wird nicht in den Ausgabedatenknoten geschrieben. | Referenzobjekt, z. B. „output“: \$1"ref“:“ myDataNode Id "\$1 | 
| übergeordneter | Übergeordnetes Objekt des aktuellen Objekts, aus dem Slots übernommen werden. | Referenzobjekt, z. B. „parent“: \$1"ref“:“ myBaseObject Id "\$1 | 
| pipelineLogUri | Die S3-URI (wie 's3://BucketName/Key/ ') zum Hochladen von Protokollen für die Pipeline. | Zeichenfolge | 
| precondition | Legen Sie optional eine Vorbedingung fest. Ein Datenknoten ist solange nicht als "BEREIT" markiert, bis alle Vorbedingungen erfüllt sind. | Referenzobjekt, z. B. „precondition“: \$1"ref“:“ „\$1 myPreconditionId | 
| Warteschlange | [Nur Amazon Redshift] Entspricht der Einstellung query\$1group in Amazon Redshift, mit der Sie gleichzeitig auszuführende Aktivitäten anhand ihrer Platzierung in Warteschlangen zuweisen und priorisieren können. In Amazon Redshift sind bis zu 15 gleichzeitige Verbindungen möglich. Weitere Informationen finden Sie unter [Zuweisen von Abfragen zu Warteschlangen](https://docs.aws.amazon.com/redshift/latest/dg/cm-c-executing-queries.html) im Amazon Redshift Datenbankentwicklungshandbuch. | Zeichenfolge | 
| reportProgressTimeout | Timeout für aufeinanderfolgende Aufrufe von Remote-Arbeit in reportProgress. Wenn diese Option aktiviert ist, werden Remote-Aktivitäten, die den Fortschritt für den angegebenen Zeitraum nicht melden, als fehlgeschlagen angesehen und es wird erneut versucht. | Zeitraum | 
| retryDelay | Die Zeitüberschreitungsdauer zwischen zwei Wiederholungsversuchen. | Zeitraum | 
| scheduleType |  Mit dem Zeitplantyp können Sie angeben, ob die Objekte in Ihrer Pipeline-Definition am Anfang des Intervalls oder am Ende des Intervalls geplant werden sollen. Werte sind `cron`, `ondemand` und `timeseries`.  `timeseries` Planung bedeutet, dass Instances am Ende jedes Intervalls geplant sind. `cron` Planung bedeutet, dass Instances am Anfang jedes Intervalls geplant sind.  Ein `ondemand`-Zeitplan ermöglicht es Ihnen, eine Pipeline einmal pro Aktivierung auszuführen. Dies bedeutet, dass Sie die Pipeline nicht klonen oder neu erstellen müssen, um sie erneut auszuführen. Wenn Sie einen `ondemand`-Zeitplan verwenden, muss er im Standardobjekt angegeben werden und der einzige für die Objekte in der Pipeline angegebene `scheduleType` sein. Um `ondemand`-Pipelines zu verwenden, rufen Sie einfach den `ActivatePipeline`-Vorgang für jeden nachfolgenden Lauf auf.   | Aufzählung | 
| scriptArgument | Eine Liste der Variablen für das Skript. Sie können alternativ Ausdrücke direkt in das Skriptfeld einfügen. Mehrere Werte für scriptArgument sind hilfreich, wenn das Skript in Amazon S3 gespeichert ist. Beispiel: \$1 \$1format (@scheduledStartTime, "YY-MM-DD HH:MM:SS"\$1\$1n\$1 \$1format (plusPeriod (@scheduledStartTime, „1 Tag“), "HH:MM:SS"\$1 YY-MM-DD  | Zeichenfolge | 

 


****  

| Laufzeitfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @activeInstances | Liste der aktuell geplanten aktiven Instance-Objekte. | Referenzobjekt, z. B. „ActiveInstances“: \$1"ref“:“ Id "\$1 myRunnableObject | 
| @actualEndTime | Zeitpunkt, zu dem die Ausführung dieses Objekts abgeschlossen wurde. | DateTime | 
| @actualStartTime | Zeitpunkt, zu dem die Ausführung dieses Objekts gestartet wurde. | DateTime | 
| cancellationReason | Die cancellationReason, wenn dieses Objekt storniert wurde. | Zeichenfolge | 
| @cascadeFailedOn | Beschreibung der Abhängigkeitskette, bei der das Objekt fehlgeschlagen ist. | Referenzobjekt, z. B. "cascadeFailedOn„: \$1" ref“:“ myRunnableObject Id "\$1 | 
| emrStepLog | EMR-Schrittprotokolle nur bei EMR-Aktivitätsversuchen verfügbar | Zeichenfolge | 
| errorId | Die errorId, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorMessage | Die errorMessage, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorStackTrace | Die Fehler-Stack-Ablaufverfolgung., wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| @finishedTime | Der Zeitpunkt, zu der dieses Objekt seine Ausführung beendet hat. | DateTime | 
| hadoopJobLog | Hadoop-Jobprotokolle für Versuche für EMR-basierte Aktivitäten verfügbar. | Zeichenfolge | 
| @healthStatus | Der Integritätsstatus des Objekts, der Erfolg oder Misserfolg der letzten Objekt-Instance widerspiegelt, die einen beendeten Zustand erreicht hat. | Zeichenfolge | 
| @healthStatusFromInstanceId | Id des Objekts der letzten Instance, das einen beendeten Zustand erreicht hat. | Zeichenfolge | 
| @ healthStatusUpdated Zeit | Zeitpunkt, zu dem der Servicestatus beim letzten Mal aktualisiert wurde. | DateTime | 
| hostname | Der Hostname des Clients, der den Aufgabenversuch aufnimmt. | Zeichenfolge | 
| @lastDeactivatedTime | Zeitpunkt, zu dem dieses Objekt zuletzt deaktiviert wurde. | DateTime | 
| @ latestCompletedRun Zeit | Zeitpunkt des letzten Laufs, für den die Ausführung abgeschlossen wurde. | DateTime | 
| @latestRunTime | Zeitpunkt des letzten Laufs, für den die Ausführung geplant war. | DateTime | 
| @nextRunTime | Zeitpunkt des Laufs, der als nächstes geplant werden soll | DateTime | 
| reportProgressTime | Der letzte Zeitpunkt, an dem die Remote-Aktivität einen Fortschritt gemeldet hat. | DateTime | 
| @scheduledEndTime | Endzeit für Objekt einplanen | DateTime | 
| @scheduledStartTime | Startzeit für Objekt einplanen | DateTime | 
| @Status | Der Status des Objekts. | Zeichenfolge | 
| @Version | Pipeline-Version, mit der das Objekt erstellt wurde. | Zeichenfolge | 
| @waitingOn | Beschreibung der Liste der Abhängigkeiten, auf die dieses Objekt wartet. | Referenzobjekt, z. B. „waitingOn“: \$1"ref“:“ myRunnableObject Id "\$1 | 

 


****  

| Systemfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @error | Fehler mit einer Beschreibung des falsch formatierten Objekts. | Zeichenfolge | 
| @pipelineId | Id der Pipeline, zu der dieses Objekt gehört. | Zeichenfolge | 
| @sphere | Die Kugel eines Objekts bezeichnet seinen Platz im Lebenszyklus: Komponentenobjekte ergeben Instance-Objekte, die Versuchsobjekte ausführen. | Zeichenfolge | 