

AWS Data Pipeline ist für Neukunden nicht mehr verfügbar. Bestandskunden von AWS Data Pipeline können den Service weiterhin wie gewohnt nutzen. [Weitere Informationen](https://aws.amazon.com/blogs/big-data/migrate-workloads-from-aws-data-pipeline/)

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Pipeline-Objektreferenz
<a name="dp-pipeline-objects"></a>

Sie können die folgenden Pipeline-Objekte und -Komponenten in Ihrer Pipeline-Definitionsdatei verwenden.

**Topics**
+ [Datenknoten](dp-object-datanodes.md)
+ [Aktivitäten](dp-object-activities.md)
+ [Ressourcen](dp-object-resources.md)
+ [Vorbedingungen](dp-object-preconditions.md)
+ [Datenbanken](dp-object-databases.md)
+ [Datenformate](dp-object-dataformats.md)
+ [Aktionen](dp-object-actions.md)
+ [Plan](dp-object-schedule.md)
+ [Dienstprogramme](dp-object-utilities.md)

**Anmerkung**  
Eine Beispielanwendung, die das AWS Data Pipeline Java-SDK verwendet, finden Sie unter [Data Pipeline DynamoDB Export Java Sample on](https://github.com/awslabs/data-pipeline-samples/tree/master/samples/DynamoDBExportJava). GitHub

Im Folgenden finden Sie die Objekthierarchie für. AWS Data Pipeline

![\[AWS Data Pipeline Objekthierarchie\]](http://docs.aws.amazon.com/de_de/datapipeline/latest/DeveloperGuide/images/object_hierarchy.png)


# Datenknoten
<a name="dp-object-datanodes"></a>

Im Folgenden sind die AWS Data Pipeline Datenknotenobjekte aufgeführt:

**Topics**
+ [Dynamo-Knoten DBData](dp-object-dynamodbdatanode.md)
+ [MySqlDataNode](dp-object-mysqldatanode.md)
+ [RedshiftDataNode](dp-object-redshiftdatanode.md)
+ [S3 DataNode](dp-object-s3datanode.md)
+ [SqlDataNode](dp-object-sqldatanode.md)

# Dynamo-Knoten DBData
<a name="dp-object-dynamodbdatanode"></a>

 Definiert mithilfe von DynamoDB einen Datenknoten, der als Eingabe für ein OR-Objekt angegeben wird. `HiveActivity` `EMRActivity` 

**Anmerkung**  
Das `DynamoDBDataNode`-Objekt unterstützt die Vorbedingung `Exists` nicht.

## Beispiel
<a name="dynamodbdatanode-example"></a>

Es folgt ein Beispiel für diesen Objekttyp. Dieses Objekt verweist auf zwei andere Objekte, die Sie in derselben Pipeline-Definitionsdatei definieren. `CopyPeriod` ist ein `Schedule`-Objekt und `Ready` ist ein Vorbedingungsobjekt.

```
{
  "id" : "MyDynamoDBTable",
  "type" : "DynamoDBDataNode",
  "schedule" : { "ref" : "CopyPeriod" },
  "tableName" : "adEvents",
  "precondition" : { "ref" : "Ready" }
}
```

## Syntax
<a name="dynamodbdatanode-syntax"></a>


****  

| Pflichtfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| tableName | Die DynamoDB-Tabelle. | Zeichenfolge | 

 


****  

| Objektaufruf-Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| schedule | Dieses Objekt wird innerhalb der Ausführung eines Zeitplanintervalls aufgerufen. Benutzer müssen einen Zeitplanverweis auf ein anderes Objekt angeben, um die Abhängigkeitsausführungsreihenfolge für dieses Objekt festzulegen. Benutzer können diese Anforderung erfüllen, indem sie explizit einen Zeitplan für das Objekt festlegen, indem sie beispielsweise „schedule“: \$1"ref“: "DefaultSchedule„\$1 angeben. In den meisten Fällen ist es besser, den Zeitplanverweis auf das Standard-Pipeline-Objekt zu setzen, damit alle Objekte diesen Zeitplan erben. Wenn die Pipeline über einen Baum mit Zeitplänen verfügt (Zeitpläne innerhalb des Hauptplans), können Benutzer ein übergeordnetes Objekt mit Zeitplänenreferenz erstellen. Weitere Informationen zu optionalen Zeitplankonfigurationen finden Sie unter [Zeitplan](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html). | Referenzobjekt, zum Beispiel „schedule“: \$1"ref“:“ myScheduleId „\$1 | 

 


****  

| Optionale Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| attemptStatus | Zuletzt gemeldeter Status von der Remote-Aktivität. | Zeichenfolge | 
| attemptTimeout | Timeout für die Remote-Arbeit abgeschlossen. Wenn dieses Feld aktiviert ist, kann eine Remote-Aktivität, die nicht innerhalb der festgelegten Startzeit abgeschlossen wird, wiederholt werden. | Zeitraum | 
| dataFormat | DataFormat für die von diesem Datenknoten beschriebenen Daten. Derzeit unterstützt für HiveActivity und HiveCopyActivity. | Referenzobjekt, „DataFormat“: \$1"ref“ DBData FormatId :"MyDynamo „\$1 | 
| dependsOn | Angeben der Abhängigkeit von einem anderen ausführbaren Objekt | Referenzobjekt, z. B. „dependSon“: \$1"ref“:“ „\$1 myActivityId | 
| failureAndRerunModus | Beschreibt das Verhalten des Konsumentenknotens, wenn Abhängigkeiten fehlschlagen oder erneut ausgeführt werden | Aufzählung | 
| lateAfterTimeout | Die nach dem Start der Pipeline verstrichene Zeit, innerhalb der das Objekt abgeschlossen werden muss. Sie wird nur ausgelöst, wenn der Zeitplantyp nicht auf eingestellt ist. ondemand | Zeitraum | 
| maxActiveInstances | Die maximale Anzahl gleichzeitiger aktiver Instances einer Komponente. Wiederholungen zählen nicht zur Anzahl der aktiven Instances. | Ganzzahl | 
| maximumRetries | Maximale Anzahl von Versuchen bei Ausfällen | Ganzzahl | 
| onFail | Eine Aktion, die ausgeführt werden soll, wenn das aktuelle Objekt fehlschlägt. | Referenzobjekt, z. B. „onFail“: \$1"ref“:“ myActionId „\$1 | 
| onLateAction | Aktionen, die ausgelöst werden sollen, wenn ein Objekt noch nicht geplant oder noch nicht abgeschlossen wurde. | Referenzobjekt, z. B. "onLateAction„: \$1" ref“:“ myActionId „\$1 | 
| onSuccess | Eine Aktion, die ausgeführt wird, wenn das aktuelle Objekt erfolgreich ist. | Referenzobjekt, z. B. „onSuccess“: \$1"ref“:“ myActionId „\$1 | 
| übergeordneter | Übergeordnetes Objekt des aktuellen Objekts, aus dem Slots übernommen werden. | Referenzobjekt, z. B. „parent“: \$1"ref“:“ myBaseObject Id "\$1 | 
| pipelineLogUri | Die S3-URI (wie 's3://BucketName/Key/ ') zum Hochladen von Protokollen für die Pipeline. | Zeichenfolge | 
| precondition | Legen Sie optional eine Vorbedingung fest. Ein Datenknoten ist solange nicht als "BEREIT" markiert, bis alle Vorbedingungen erfüllt sind. | Referenzobjekt, z. B. „precondition“: \$1"ref“:“ „\$1 myPreconditionId | 
| readThroughputPercent | Legt die Rate der Lesevorgänge so fest, dass Ihre von DynamoDB bereitgestellte Durchsatzrate im für Ihre Tabelle zugewiesenen Bereich liegt. Der Wert ist zweistellig und liegt zwischen 0,1 und 1,0 (einschließlich). | Double | 
| Region | Der Code für die Region, in der die DynamoDB-Tabelle vorhanden ist. Beispiel: us-east-1. Dies wird verwendet, HiveActivity wenn es Staging für DynamoDB-Tabellen in Hive durchführt. | Aufzählung | 
| reportProgressTimeout | Timeout für aufeinanderfolgende Aufrufe von Remote-Arbeit in reportProgress. Wenn diese Option aktiviert ist, werden Remote-Aktivitäten, die den Fortschritt für den angegebenen Zeitraum nicht melden, als fehlgeschlagen angesehen und es wird erneut versucht. | Zeitraum | 
| retryDelay | Die Zeitüberschreitungsdauer zwischen zwei Wiederholungsversuchen. | Zeitraum | 
| runsOn | Die Rechenressource zum Ausführen der Aktivität oder des Befehls. Beispiel: Amazon EC2 Instance oder Amazon EMR-Cluster. | Referenzobjekt, z. B. „runsOn“: \$1"ref“:“ myResourceId „\$1 | 
| scheduleType | Mit dem Zeitplantyp können Sie angeben, ob die Objekte in Ihrer Pipeline-Definition am Anfang des Intervalls oder am Ende des Intervalls geplant werden sollen. Zeitreihenstilplanung bedeutet, dass Instances am Ende jedes Intervalls geplant werden und Cron-Stil-Planung bedeutet, dass Instances zu Beginn jedes Intervalls geplant werden. Ein On-Demand-Zeitplan ermöglicht es Ihnen, eine Pipeline einmal pro Aktivierung auszuführen. Dies bedeutet, dass Sie die Pipeline nicht klonen oder neu erstellen müssen, um sie erneut auszuführen. Wenn Sie einen On-Demand-Zeitplan verwenden, muss er im Standardobjekt angegeben werden und der einzige für die Objekte in der Pipeline angegebene scheduleType sein. Um On-Demand-Pipelines zu verwenden, rufen Sie den ActivatePipeline Vorgang einfach für jeden nachfolgenden Lauf auf. Die Werte sind: cron, ondemand und timeseries. | Aufzählung | 
| workerGroup | Die Auftragnehmergruppe. Dies wird für Routing-Aufgaben verwendet. Wenn Sie einen runsOn-Wert angeben und workerGroup vorhanden ist, wird workerGroup ignoriert. | Zeichenfolge | 
| writeThroughputPercent | Legt die Rate der Schreibvorgänge so fest, dass Ihre von DynamoDB bereitgestellte Durchsatzrate im für Ihre Tabelle zugewiesenen Bereich liegt. Der Wert ist zweistellig und liegt zwischen .1 und 1.0 (einschließlich). | Double | 

 


****  

| Laufzeitfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @activeInstances | Liste der aktuell geplanten aktiven Instance-Objekte. | Referenzobjekt, z. B. „ActiveInstances“: \$1"ref“:“ myRunnableObject Id "\$1 | 
| @actualEndTime | Zeitpunkt, zu dem die Ausführung dieses Objekts abgeschlossen wurde. | DateTime | 
| @actualStartTime | Zeitpunkt, zu dem die Ausführung dieses Objekts gestartet wurde. | DateTime | 
| cancellationReason | Die cancellationReason, wenn dieses Objekt storniert wurde. | Zeichenfolge | 
| @cascadeFailedOn | Beschreibung der Zuständigkeitskette, bei der das Objekt fehlgeschlagen ist. | Referenzobjekt, z. B. "cascadeFailedOn„: \$1" ref“:“ myRunnableObject Id "\$1 | 
| emrStepLog | EMR-Schrittprotokolle nur bei EMR-Aktivitätsversuchen verfügbar | Zeichenfolge | 
| errorId | Die errorId, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorMessage | Die errorMessage, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorStackTrace | Die Fehler-Stack-Ablaufverfolgung., wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| @finishedTime | Der Zeitpunkt, zu der dieses Objekt seine Ausführung beendet hat. | DateTime | 
| hadoopJobLog | Hadoop-Jobprotokolle für Versuche für EMR-basierte Aktivitäten verfügbar. | Zeichenfolge | 
| @healthStatus | Der Integritätsstatus des Objekts, der Erfolg oder Misserfolg der letzten Objekt-Instance widerspiegelt, die einen beendeten Zustand erreicht hat. | Zeichenfolge | 
| @healthStatusFromInstanceId | Id des Objekts der letzten Instance, das einen beendeten Zustand erreicht hat. | Zeichenfolge | 
| @ healthStatusUpdated Zeit | Zeitpunkt, zu dem der Servicestatus beim letzten Mal aktualisiert wurde. | DateTime | 
| hostname | Der Hostname des Clients, der den Aufgabenversuch aufnimmt. | Zeichenfolge | 
| @lastDeactivatedTime | Zeitpunkt, zu dem dieses Objekt zuletzt deaktiviert wurde. | DateTime | 
| @ latestCompletedRun Zeit | Zeitpunkt des letzten Laufs, für den die Ausführung abgeschlossen wurde. | DateTime | 
| @latestRunTime | Zeitpunkt des letzten Laufs, für den die Ausführung geplant war. | DateTime | 
| @nextRunTime | Zeitpunkt des Laufs, der als nächstes geplant werden soll | DateTime | 
| reportProgressTime | Der letzte Zeitpunkt, an dem die Remote-Aktivität einen Fortschritt gemeldet hat. | DateTime | 
| @scheduledEndTime | Endzeit für Objekt einplanen | DateTime | 
| @scheduledStartTime | Startzeit für Objekt einplanen | DateTime | 
| @Status | Der Status des Objekts. | Zeichenfolge | 
| @Version | Pipeline-Version, mit der das Objekt erstellt wurde. | Zeichenfolge | 
| @waitingOn | Beschreibung der Liste der Abhängigkeiten, auf die dieses Objekt wartet. | Referenzobjekt, z. B. „waitingOn“: \$1"ref“:“ myRunnableObject Id "\$1 | 

 


****  

| Systemfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @error | Fehler mit einer Beschreibung des falsch formatierten Objekts | Zeichenfolge | 
| @pipelineId | Id der Pipeline, zu der dieses Objekt gehört | Zeichenfolge | 
| @sphere | Die Kugel eines Objekts bezeichnet seinen Platz im Lebenszyklus: Komponentenobjekte ergeben Instance-Objekte, die Versuchsobjekte ausführen | Zeichenfolge | 

# MySqlDataNode
<a name="dp-object-mysqldatanode"></a>

 Legt ein Datenknoten mit MySQL fest. 

**Anmerkung**  
Der `MySqlDataNode`-Typ ist veraltet. Stattdessen empfehlen wir, [SqlDataNode](dp-object-sqldatanode.md) zu verwenden.

## Beispiel
<a name="mysqldatanode-example"></a>

Es folgt ein Beispiel für diesen Objekttyp. Dieses Objekt verweist auf zwei andere Objekte, die Sie in derselben Pipeline-Definitionsdatei definieren. `CopyPeriod` ist ein `Schedule`-Objekt und `Ready` ist ein Vorbedingungsobjekt.

```
{
  "id" : "Sql Table",
  "type" : "MySqlDataNode",
  "schedule" : { "ref" : "CopyPeriod" },
  "table" : "adEvents",
  "username": "user_name",
  "*password": "my_password",
  "connectionString": "jdbc:mysql://mysqlinstance-rds.example.us-east-1.rds.amazonaws.com:3306/database_name",
  "selectQuery" : "select * from #{table} where eventTime >= '#{@scheduledStartTime.format('YYYY-MM-dd HH:mm:ss')}' and eventTime < '#{@scheduledEndTime.format('YYYY-MM-dd HH:mm:ss')}'",
  "precondition" : { "ref" : "Ready" }
}
```

### Syntax
<a name="mysqldatanode-syntax"></a>


****  

| Pflichtfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| Tabelle | Der Name der Tabelle in der MySQL-Datenbank. | Zeichenfolge | 

 


****  

| Objektaufruf-Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| schedule | Dieses Objekt wird innerhalb der Ausführung eines Zeitplanintervalls aufgerufen. Benutzer müssen einen Zeitplanverweis auf ein anderes Objekt angeben, um die Abhängigkeitsausführungsreihenfolge für dieses Objekt festzulegen. Benutzer können diese Anforderung erfüllen, indem sie explizit einen Zeitplan für das Objekt festlegen, indem sie beispielsweise „schedule“: \$1"ref“: "DefaultSchedule„\$1 angeben. In den meisten Fällen ist es besser, den Zeitplanverweis auf das Standard-Pipeline-Objekt zu setzen, damit alle Objekte diesen Zeitplan erben. Wenn die Pipeline über einen Baum mit Zeitplänen verfügt (Zeitpläne innerhalb des Hauptplans), können Benutzer ein übergeordnetes Objekt mit Zeitplänenreferenz erstellen. Weitere Informationen zu optionalen Beispiel-Zeitplankonfigurationen finden Sie unter [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html). | Referenzobjekt, z. B. „schedule“: \$1"ref“:“ myScheduleId „\$1 | 

 


****  

| Optionale Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| attemptStatus | Zuletzt gemeldeter Status von der Remote-Aktivität. | Zeichenfolge | 
| attemptTimeout | Timeout für die Remote-Arbeit abgeschlossen. Wenn diese Option aktiviert ist, kann eine Remote-Aktivität, die nicht innerhalb der festgelegten Startzeit abgeschlossen wird, wiederholt werden. | Zeitraum | 
| createTableSql | Ein SQL-Tabellenerstellungsausdruck, der die Tabelle erstellt. | Zeichenfolge | 
| Datenbank | Name der Datenbank. | Referenzobjekt, z. B. „Datenbank“: \$1"ref“:“ myDatabaseId „\$1 | 
| dependsOn | Gibt eine Abhängigkeit von einem anderen ausführbaren Objekt an. | Referenzobjekt, z. B. „dependSon“: \$1"ref“:“ myActivityId „\$1 | 
| failureAndRerunModus | Beschreibt das Verhalten des Konsumentenknotens, wenn Abhängigkeiten fehlschlagen oder erneut ausgeführt werden. | Aufzählung | 
| insertQuery | Eine SQL-Anweisung zum Einfügen von Daten in die Tabelle. | Zeichenfolge | 
| lateAfterTimeout | Die nach dem Start der Pipeline verstrichene Zeit, innerhalb der das Objekt abgeschlossen werden muss. Sie wird nur ausgelöst, wenn der Zeitplantyp nicht auf eingestellt ist. ondemand | Zeitraum | 
| maxActiveInstances | Die maximale Anzahl gleichzeitiger aktiver Instances einer Komponente. Wiederholungen zählen nicht zur Anzahl der aktiven Instances. | Ganzzahl | 
| maximumRetries | Maximale Anzahl von Versuchen bei Ausfällen | Ganzzahl | 
| onFail | Eine Aktion, die ausgeführt werden soll, wenn das aktuelle Objekt fehlschlägt. | Referenzobjekt, z. B. „onFail“: \$1"ref“:“ myActionId „\$1 | 
| onLateAction | Aktionen, die ausgelöst werden sollen, wenn ein Objekt noch nicht geplant oder noch nicht abgeschlossen wurde. | Referenzobjekt, z. B. "onLateAction„: \$1" ref“:“ myActionId „\$1 | 
| onSuccess | Eine Aktion, die ausgeführt wird, wenn das aktuelle Objekt erfolgreich ist. | Referenzobjekt, z. B. „onSuccess“: \$1"ref“:“ myActionId „\$1 | 
| übergeordneter | Übergeordnetes Objekt des aktuellen Objekts, aus dem Slots übernommen werden. | Referenzobjekt, z. B. „parent“: \$1"ref“:“ myBaseObject Id "\$1 | 
| pipelineLogUri | Die S3-URI (wie 's3://BucketName/Key/ ') zum Hochladen von Protokollen für die Pipeline. | Zeichenfolge | 
| precondition | Legen Sie optional eine Vorbedingung fest. Ein Datenknoten ist solange nicht als "BEREIT" markiert, bis alle Vorbedingungen erfüllt sind. | Referenzobjekt, z. B. „precondition“: \$1"ref“:“ „\$1 myPreconditionId | 
| reportProgressTimeout | Timeout für aufeinanderfolgende Aufrufe von Remote-Arbeit in reportProgress. Wenn diese Option aktiviert ist, werden Remote-Aktivitäten, die den Fortschritt für den angegebenen Zeitraum nicht melden, als fehlgeschlagen angesehen und es wird erneut versucht. | Zeitraum | 
| retryDelay | Die Zeitüberschreitungsdauer zwischen zwei Wiederholungsversuchen. | Zeitraum | 
| runsOn | Die Rechenressource zum Ausführen der Aktivität oder des Befehls. Beispiel: Amazon EC2 Instance oder Amazon EMR-Cluster. | Referenzobjekt, z. B. „runsOn“: \$1"ref“:“ myResourceId „\$1 | 
| scheduleType | Mit dem Zeitplantyp können Sie angeben, ob die Objekte in Ihrer Pipeline-Definition am Anfang des Intervalls oder am Ende des Intervalls geplant werden sollen. Zeitreihenstilplanung bedeutet, dass Instances am Ende jedes Intervalls geplant werden und Cron-Stil-Planung bedeutet, dass Instances zu Beginn jedes Intervalls geplant werden. Ein On-Demand-Zeitplan ermöglicht es Ihnen, eine Pipeline einmal pro Aktivierung auszuführen. Dies bedeutet, dass Sie die Pipeline nicht klonen oder neu erstellen müssen, um sie erneut auszuführen. Wenn Sie einen On-Demand-Zeitplan verwenden, muss er im Standardobjekt angegeben werden und der einzige für die Objekte in der Pipeline angegebene scheduleType sein. Um On-Demand-Pipelines zu verwenden, rufen Sie den ActivatePipeline Vorgang einfach für jeden nachfolgenden Lauf auf. Die Werte sind: cron, ondemand und timeseries. | Aufzählung | 
| schemaName | Der Name des Schemas für die Tabelle. | Zeichenfolge | 
| selectQuery | Eine SQL-Anweisung zum Abrufen von Daten aus der Tabelle. | Zeichenfolge | 
| workerGroup | Die Auftragnehmergruppe. Dies wird für Routing-Aufgaben verwendet. Wenn Sie einen runsOn-Wert angeben und workerGroup vorhanden ist, wird workerGroup ignoriert. | Zeichenfolge | 

 


****  

| Laufzeitfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @activeInstances | Liste der aktuell geplanten aktiven Instance-Objekte. | Referenzobjekt, z. B. „ActiveInstances“: \$1"ref“:“ myRunnableObject Id "\$1 | 
| @actualEndTime | Zeitpunkt, zu dem die Ausführung dieses Objekts abgeschlossen wurde. | DateTime | 
| @actualStartTime | Zeitpunkt, zu dem die Ausführung dieses Objekts gestartet wurde. | DateTime | 
| cancellationReason | Die cancellationReason, wenn dieses Objekt storniert wurde. | Zeichenfolge | 
| @cascadeFailedOn | Beschreibung der Abhängigkeitskette, bei der das Objekt fehlgeschlagen ist. | Referenzobjekt, z. B. "cascadeFailedOn„: \$1" ref“:“ myRunnableObject Id "\$1 | 
| emrStepLog | EMR-Schrittprotokolle nur bei EMR-Aktivitätsversuchen verfügbar | Zeichenfolge | 
| errorId | Die errorId, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorMessage | Die errorMessage, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorStackTrace | Die Fehler-Stack-Ablaufverfolgung., wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| @finishedTime | Der Zeitpunkt, zu der dieses Objekt seine Ausführung beendet hat. | DateTime | 
| hadoopJobLog | Hadoop-Jobprotokolle für Versuche für EMR-basierte Aktivitäten verfügbar. | Zeichenfolge | 
| @healthStatus | Der Integritätsstatus des Objekts, der Erfolg oder Misserfolg der letzten Objekt-Instance widerspiegelt, die einen beendeten Zustand erreicht hat. | Zeichenfolge | 
| @healthStatusFromInstanceId | Id des Objekts der letzten Instance, das einen beendeten Zustand erreicht hat. | Zeichenfolge | 
| @ healthStatusUpdated Zeit | Zeitpunkt, zu dem der Servicestatus beim letzten Mal aktualisiert wurde. | DateTime | 
| hostname | Der Hostname des Clients, der den Aufgabenversuch aufnimmt. | Zeichenfolge | 
| @lastDeactivatedTime | Zeitpunkt, zu dem dieses Objekt zuletzt deaktiviert wurde. | DateTime | 
| @ latestCompletedRun Zeit | Zeitpunkt des letzten Laufs, für den die Ausführung abgeschlossen wurde. | DateTime | 
| @latestRunTime | Zeitpunkt des letzten Laufs, für den die Ausführung geplant war. | DateTime | 
| @nextRunTime | Zeitpunkt des Laufs, der als nächstes geplant werden soll | DateTime | 
| reportProgressTime | Der letzte Zeitpunkt, an dem die Remote-Aktivität einen Fortschritt gemeldet hat. | DateTime | 
| @scheduledEndTime | Endzeit für Objekt einplanen. | DateTime | 
| @scheduledStartTime | Startzeit für Objekt einplanen. | DateTime | 
| @Status | Der Status des Objekts. | Zeichenfolge | 
| @Version | Pipeline-Version, mit der das Objekt erstellt wurde. | Zeichenfolge | 
| @waitingOn | Beschreibung der Liste der Abhängigkeiten, auf die dieses Objekt wartet. | Referenzobjekt, z. B. „waitingOn“: \$1"ref“:“ myRunnableObject Id "\$1 | 

 


****  

| Systemfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @error | Fehler mit einer Beschreibung des falsch formatierten Objekts. | Zeichenfolge | 
| @pipelineId | Id der Pipeline, zu der dieses Objekt gehört. | Zeichenfolge | 
| @sphere | Die Kugel eines Objekts bezeichnet seinen Platz im Lebenszyklus: Komponentenobjekte ergeben Instance-Objekte, die Versuchsobjekte ausführen. | Zeichenfolge | 

## Weitere Informationen finden Sie unter:
<a name="mysqldatanode-seealso"></a>
+ [S3 DataNode](dp-object-s3datanode.md)

# RedshiftDataNode
<a name="dp-object-redshiftdatanode"></a>

Definiert einen Datenknoten mithilfe von Amazon Redshift. `RedshiftDataNode`stellt die Eigenschaften der Daten in einer Datenbank dar, z. B. einer Datentabelle, die von Ihrer Pipeline verwendet wird.

## Beispiel
<a name="redshiftdatanode-example"></a>

Es folgt ein Beispiel für diesen Objekttyp.

```
{
  "id" : "MyRedshiftDataNode",
  "type" : "RedshiftDataNode",
  "database": { "ref": "MyRedshiftDatabase" },
  "tableName": "adEvents",
  "schedule": { "ref": "Hour" }
}
```

## Syntax
<a name="redshiftdatanode-syntax"></a>


****  

| Pflichtfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| Datenbank | Die Datenbank, in der die Tabelle gespeichert ist. | Referenzobjekt, z. B. „database“: \$1"ref“:“ myRedshiftDatabase Id "\$1 | 
| tableName | Der Name der Amazon Redshift-Tabelle. Die Tabelle wird erstellt, falls sie noch nicht existiert und Sie sie angegeben haben createTableSql. | Zeichenfolge | 

 


****  

| Objektaufruf-Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| schedule | Dieses Objekt wird innerhalb der Ausführung eines Zeitplanintervalls aufgerufen. Benutzer müssen einen Zeitplanverweis auf ein anderes Objekt angeben, um die Abhängigkeitsausführungsreihenfolge für dieses Objekt festzulegen. Benutzer können diese Anforderung erfüllen, indem sie explizit einen Zeitplan für das Objekt festlegen, indem sie beispielsweise „schedule“: \$1"ref“: "DefaultSchedule„\$1 angeben. In den meisten Fällen ist es besser, den Zeitplanverweis auf das Standard-Pipeline-Objekt zu setzen, damit alle Objekte diesen Zeitplan erben. Wenn die Pipeline über einen Baum mit Zeitplänen verfügt (Zeitpläne innerhalb des Hauptplans), können Benutzer ein übergeordnetes Objekt mit Zeitplänenreferenz erstellen. Weitere Informationen zu optionalen Beispiel-Zeitplankonfigurationen finden Sie unter [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html). | Referenzobjekt, z. B. „schedule“: \$1"ref“:“ myScheduleId „\$1 | 

 


****  

| Optionale Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| attemptStatus | Zuletzt gemeldeter Status von der Remote-Aktivität. | Zeichenfolge | 
| attemptTimeout | Timeout für die Remote-Arbeit abgeschlossen. Wenn diese Option aktiviert ist, kann eine Remote-Aktivität, die nicht innerhalb der festgelegten Startzeit abgeschlossen wird, wiederholt werden. | Zeitraum | 
| createTableSql | Ein SQL-Ausdruck, der die Tabelle in der Datenbank erstellt. Wir empfehlen, dass Sie das Schema angeben, in dem die Tabelle erstellt werden soll, zum Beispiel: CREATE TABLE mySchema.myTable (bestColumn varchar (25) primary key distkey, integer sortKey). numberOfWins AWS Data Pipeline führt das Skript in dem createTableSql Feld aus, wenn die durch TableName angegebene Tabelle nicht in dem durch das Feld SchemaName angegebenen Schema existiert. Wenn Sie beispielsweise SchemaName als mySchema angeben, mySchema jedoch nicht in das createTableSql Feld aufnehmen, wird die Tabelle im falschen Schema erstellt (standardmäßig würde sie in PUBLIC erstellt). Dies passiert, da AWS Data Pipeline die CREATE-TABLE-Anweisungen nicht parst.  | Zeichenfolge | 
| dependsOn | Angeben der Abhängigkeit von einem anderen ausführbaren Objekt | Referenzobjekt, z. B. „dependSon“: \$1"ref“:“ „\$1 myActivityId | 
| failureAndRerunModus | Beschreibt das Verhalten des Konsumentenknotens, wenn Abhängigkeiten fehlschlagen oder erneut ausgeführt werden | Aufzählung | 
| lateAfterTimeout | Die nach dem Start der Pipeline verstrichene Zeit, innerhalb der das Objekt abgeschlossen werden muss. Sie wird nur ausgelöst, wenn der Zeitplantyp nicht auf eingestellt ist. ondemand | Zeitraum | 
| maxActiveInstances | Die maximale Anzahl gleichzeitiger aktiver Instances einer Komponente. Wiederholungen zählen nicht zur Anzahl der aktiven Instances. | Ganzzahl | 
| maximumRetries | Die maximale Anzahl von Versuchen bei Ausfällen. | Ganzzahl | 
| onFail | Eine Aktion, die ausgeführt werden soll, wenn das aktuelle Objekt fehlschlägt. | Referenzobjekt, z. B. „onFail“: \$1"ref“:“ myActionId „\$1 | 
| onLateAction | Aktionen, die ausgelöst werden sollen, wenn ein Objekt noch nicht geplant oder noch nicht abgeschlossen wurde. | Referenzobjekt, z. B. "onLateAction„: \$1" ref“:“ myActionId „\$1 | 
| onSuccess | Eine Aktion, die ausgeführt wird, wenn das aktuelle Objekt erfolgreich ist. | Referenzobjekt, z. B. „onSuccess“: \$1"ref“:“ myActionId „\$1 | 
| übergeordneter | Übergeordnetes Objekt des aktuellen Objekts, aus dem Slots übernommen werden. | Referenzobjekt, z. B. „parent“: \$1"ref“:“ myBaseObject Id "\$1 | 
| pipelineLogUri | Die S3-URI (wie 's3://BucketName/Key/ ') zum Hochladen von Protokollen für die Pipeline. | Zeichenfolge | 
| precondition | Legen Sie optional eine Vorbedingung fest. Ein Datenknoten ist solange nicht als "BEREIT" markiert, bis alle Vorbedingungen erfüllt sind. | Referenzobjekt, z. B. „precondition“: \$1"ref“:“ „\$1 myPreconditionId | 
| primaryKeys | Wenn Sie für eine Zieltabelle in RedShiftCopyActivity keine primaryKeys festlegen, können Sie eine Liste der Spalten angeben, die primaryKeys nutzen, die als mergeKey fungieren. Wenn Sie jedoch einen vorhandenen PrimaryKey in einer Amazon Redshift Redshift-Tabelle definiert haben, überschreibt diese Einstellung den vorhandenen Schlüssel. | Zeichenfolge | 
| reportProgressTimeout | Timeout für aufeinanderfolgende Aufrufe von Remote-Arbeit in reportProgress. Wenn diese Option aktiviert ist, werden Remote-Aktivitäten, die den Fortschritt für den angegebenen Zeitraum nicht melden, als fehlgeschlagen angesehen und es wird erneut versucht. | Zeitraum | 
| retryDelay | Die Zeitüberschreitungsdauer zwischen zwei Wiederholungsversuchen. | Zeitraum | 
| runsOn | Die Rechenressource zum Ausführen der Aktivität oder des Befehls. Beispiel: Amazon EC2 Instance oder Amazon EMR-Cluster. | Referenzobjekt, z. B. „runsOn“: \$1"ref“:“ myResourceId „\$1 | 
| scheduleType | Mit dem Zeitplantyp können Sie angeben, ob die Objekte in Ihrer Pipeline-Definition am Anfang des Intervalls oder am Ende des Intervalls geplant werden sollen. Zeitreihenstilplanung bedeutet, dass Instances am Ende jedes Intervalls geplant werden und Cron-Stil-Planung bedeutet, dass Instances zu Beginn jedes Intervalls geplant werden. Ein On-Demand-Zeitplan ermöglicht es Ihnen, eine Pipeline einmal pro Aktivierung auszuführen. Dies bedeutet, dass Sie die Pipeline nicht klonen oder neu erstellen müssen, um sie erneut auszuführen. Wenn Sie einen On-Demand-Zeitplan verwenden, muss er im Standardobjekt angegeben werden und der einzige für die Objekte in der Pipeline angegebene scheduleType sein. Um On-Demand-Pipelines zu verwenden, rufen Sie den ActivatePipeline Vorgang einfach für jeden nachfolgenden Lauf auf. Die Werte sind: cron, ondemand und timeseries. | Aufzählung | 
| schemaName | In diesem optionalen Feld wird der Name des Schemas für die Amazon Redshift-Tabelle festgelegt. Wenn kein Name festgelegt wird, ist der Schemaname ÖFFENTLICH, was das Standardschema bei Amazon Redshift ist. Weitere Informationen finden Sie im Amazon Redshift Database Developer Guide.  | Zeichenfolge | 
| workerGroup | Die Auftragnehmergruppe. Dies wird für Routing-Aufgaben verwendet. Wenn Sie einen runsOn-Wert angeben und workerGroup vorhanden ist, wird workerGroup ignoriert. | Zeichenfolge | 

 


****  

| Laufzeitfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @activeInstances | Liste der aktuell geplanten aktiven Instance-Objekte. | Referenzobjekt, z. B. „ActiveInstances“: \$1"ref“:“ myRunnableObject Id "\$1 | 
| @actualEndTime | Zeitpunkt, zu dem die Ausführung dieses Objekts abgeschlossen wurde. | DateTime | 
| @actualStartTime | Zeitpunkt, zu dem die Ausführung dieses Objekts gestartet wurde. | DateTime | 
| cancellationReason | Die cancellationReason, wenn dieses Objekt storniert wurde. | Zeichenfolge | 
| @cascadeFailedOn | Beschreibung der Abhängigkeitskette, bei der das Objekt fehlgeschlagen ist. | Referenzobjekt, z. B. "cascadeFailedOn„: \$1" ref“:“ myRunnableObject Id "\$1 | 
| emrStepLog | EMR-Schrittprotokolle nur bei EMR-Aktivitätsversuchen verfügbar | Zeichenfolge | 
| errorId | Die errorId, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorMessage | Die errorMessage, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorStackTrace | Die Fehler-Stack-Ablaufverfolgung., wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| @finishedTime | Der Zeitpunkt, zu der dieses Objekt seine Ausführung beendet hat. | DateTime | 
| hadoopJobLog | Hadoop-Jobprotokolle für Versuche für EMR-basierte Aktivitäten verfügbar. | Zeichenfolge | 
| @healthStatus | Der Integritätsstatus des Objekts, der Erfolg oder Misserfolg der letzten Objekt-Instance widerspiegelt, die einen beendeten Zustand erreicht hat. | Zeichenfolge | 
| @healthStatusFromInstanceId | Id des Objekts der letzten Instance, das einen beendeten Zustand erreicht hat. | Zeichenfolge | 
| @ healthStatusUpdated Zeit | Zeitpunkt, zu dem der Servicestatus beim letzten Mal aktualisiert wurde. | DateTime | 
| hostname | Der Hostname des Clients, der den Aufgabenversuch aufnimmt. | Zeichenfolge | 
| @lastDeactivatedTime | Zeitpunkt, zu dem dieses Objekt zuletzt deaktiviert wurde. | DateTime | 
| @ latestCompletedRun Zeit | Zeitpunkt des letzten Laufs, für den die Ausführung abgeschlossen wurde. | DateTime | 
| @latestRunTime | Zeitpunkt des letzten Laufs, für den die Ausführung geplant war. | DateTime | 
| @nextRunTime | Zeitpunkt des Laufs, der als nächstes geplant werden soll | DateTime | 
| reportProgressTime | Der letzte Zeitpunkt, an dem die Remote-Aktivität einen Fortschritt gemeldet hat. | DateTime | 
| @scheduledEndTime | Endzeit für Objekt einplanen | DateTime | 
| @scheduledStartTime | Startzeit für Objekt einplanen | DateTime | 
| @Status | Der Status des Objekts. | Zeichenfolge | 
| @Version | Pipeline-Version, mit der das Objekt erstellt wurde. | Zeichenfolge | 
| @waitingOn | Beschreibung der Liste der Abhängigkeiten, auf die dieses Objekt wartet. | Referenzobjekt, z. B. „waitingOn“: \$1"ref“:“ myRunnableObject Id "\$1 | 

 


****  

| Systemfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @error | Fehler mit einer Beschreibung des falsch formatierten Objekts. | Zeichenfolge | 
| @pipelineId | Id der Pipeline, zu der dieses Objekt gehört. | Zeichenfolge | 
| @sphere | Die Kugel eines Objekts bezeichnet seinen Platz im Lebenszyklus: Komponentenobjekte ergeben Instance-Objekte, die Versuchsobjekte ausführen. | Zeichenfolge | 

# S3 DataNode
<a name="dp-object-s3datanode"></a>

 Definiert einen Datenknoten mit Amazon S3. Standardmäßig DataNode verwendet der S3 serverseitige Verschlüsselung. Wenn Sie dies deaktivieren möchten, setzen Sie s3 EncryptionType auf NONE. 

**Anmerkung**  
Wenn Sie einen `S3DataNode` als Eingabe für `CopyActivity` nutzen, werden nur die Datenformate CSV und TSV unterstützt.

## Beispiel
<a name="s3datanode-example"></a>

Es folgt ein Beispiel für diesen Objekttyp. Dieses Objekt verweist auf ein anderes Objekt, das Sie in derselben Pipeline-Definitionsdatei definieren. `CopyPeriod` ist ein `Schedule`-Objekt.

```
{
  "id" : "OutputData",
  "type" : "S3DataNode",
  "schedule" : { "ref" : "CopyPeriod" },
  "filePath" : "s3://amzn-s3-demo-bucket/#{@scheduledStartTime}.csv"
}
```

## Syntax
<a name="s3datanode-syntax"></a>


****  

| Objektaufruf-Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| schedule | Dieses Objekt wird innerhalb der Ausführung eines Zeitplanintervalls aufgerufen. Benutzer müssen einen Zeitplanverweis auf ein anderes Objekt angeben, um die Abhängigkeitsausführungsreihenfolge für dieses Objekt festzulegen. Benutzer können diese Anforderung erfüllen, indem sie explizit einen Zeitplan für das Objekt festlegen, z. B. indem sie „schedule“: \$1"ref“: "DefaultSchedule„\$1 angeben. In den meisten Fällen ist es besser, den Zeitplanverweis auf das Standard-Pipeline-Objekt zu setzen, damit alle Objekte diesen Zeitplan erben. Wenn die Pipeline über einen Baum mit Zeitplänen verfügt (Zeitpläne innerhalb des Hauptplans), können Benutzer ein übergeordnetes Objekt mit Zeitplänenreferenz erstellen. Weitere Informationen zu optionalen Beispiel-Zeitplankonfigurationen finden Sie unter [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html). | Referenzobjekt, z. B. „schedule“: \$1"ref“:“ myScheduleId „\$1 | 

 


****  

| Optionale Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| attemptStatus | Zuletzt gemeldeter Status von der Remote-Aktivität. | Zeichenfolge | 
| attemptTimeout | Timeout für die Remote-Arbeit abgeschlossen. Wenn diese Option aktiviert ist, kann eine Remote-Aktivität, die nicht innerhalb der festgelegten Startzeit abgeschlossen wird, wiederholt werden. | Zeitraum | 
| Kompression | Die vom S3 beschriebene Art der Komprimierung für die DatenDataNode. „none“ ist keine Komprimierung und „gzip“ wird mit dem Gzip-Algorithmus komprimiert. Dieses Feld wird nur für die Verwendung mit Amazon Redshift und wenn Sie S3 DataNode mit CopyActivity verwenden, unterstützt. | Aufzählung | 
| dataFormat | DataFormat für die in diesem S3 DataNode beschriebenen Daten. | Referenzobjekt, z. B. „dataFormat“: \$1"ref“:“ myDataFormat Id "\$1 | 
| dependsOn | Angeben der Abhängigkeit von einem anderen ausführbaren Objekt | Referenzobjekt, z. B. „dependSon“: \$1"ref“:“ myActivityId „\$1 | 
| directoryPath | Amazon S3 S3-Verzeichnispfad als URI: s3://my-bucket/my-key-for-directory. Sie müssen entweder einen Dateipfad (filePath) oder einen Wert für directoryPath angeben. | Zeichenfolge | 
| failureAndRerunModus | Beschreibt das Verhalten des Konsumentenknotens, wenn Abhängigkeiten fehlschlagen oder erneut ausgeführt werden | Aufzählung | 
| filePath | Der Pfad zum Objekt in Amazon S3 als URI, zum Beispiel: s3://my-bucket/my-key-for-file. Sie müssen entweder einen Dateipfad (filePath) oder einen Wert für directoryPath angeben. Diese repräsentieren einen Ordner und einen Dateinamen. Mit dem directoryPath-Wert können Sie mehrere Dateien in einem Verzeichnis unterbringen. | Zeichenfolge | 
| lateAfterTimeout | Die verstrichene Zeit nach dem Start der Pipeline, innerhalb derer das Objekt abgeschlossen werden muss. Sie wird nur ausgelöst, wenn der Zeitplantyp nicht auf eingestellt ist. ondemand | Zeitraum | 
| manifestFilePath | Der Amazon S3 S3-Pfad zu einer Manifestdatei in dem von Amazon Redshift unterstützten Format. AWS Data Pipeline verwendet die Manifestdatei, um die angegebenen Amazon S3 S3-Dateien in die Tabelle zu kopieren. Dieses Feld ist nur gültig, wenn a RedShiftCopyActivity auf den S3 verweistDataNode. | Zeichenfolge | 
| maxActiveInstances | Die maximale Anzahl gleichzeitiger aktiver Instances einer Komponente. Wiederholungen zählen nicht zur Anzahl der aktiven Instances. | Ganzzahl | 
| maximumRetries | Maximale Anzahl von Versuchen bei Ausfällen | Ganzzahl | 
| onFail | Eine Aktion, die ausgeführt werden soll, wenn das aktuelle Objekt fehlschlägt. | Referenzobjekt, z. B. „onFail“: \$1"ref“:“ myActionId „\$1 | 
| onLateAction | Aktionen, die ausgelöst werden sollen, wenn ein Objekt noch nicht geplant oder noch nicht abgeschlossen wurde. | Referenzobjekt, z. B. "onLateAction„: \$1" ref“:“ myActionId „\$1 | 
| onSuccess | Eine Aktion, die ausgeführt wird, wenn das aktuelle Objekt erfolgreich ist. | Referenzobjekt, z. B. „onSuccess“: \$1"ref“:“ myActionId „\$1 | 
| übergeordneter | Übergeordnetes Objekt des aktuellen Objekts, aus dem Slots übernommen werden. | Referenzobjekt, z. B. „parent“: \$1"ref“:“ myBaseObject Id "\$1 | 
| pipelineLogUri | Die S3-URI (wie 's3://BucketName/Key/ ') zum Hochladen von Protokollen für die Pipeline. | Zeichenfolge | 
| precondition | Legen Sie optional eine Vorbedingung fest. Ein Datenknoten ist solange nicht als "BEREIT" markiert, bis alle Vorbedingungen erfüllt sind. | Referenzobjekt, z. B. „precondition“: \$1"ref“:“ „\$1 myPreconditionId | 
| reportProgressTimeout | Timeout für aufeinanderfolgende Aufrufe von Remote-Arbeit in reportProgress. Wenn diese Option aktiviert ist, werden Remote-Aktivitäten, die den Fortschritt für den angegebenen Zeitraum nicht melden, als fehlgeschlagen angesehen und es wird erneut versucht. | Zeitraum | 
| retryDelay | Die Zeitüberschreitungsdauer zwischen zwei Wiederholungsversuchen. | Zeitraum | 
| runsOn | Die Rechenressource zum Ausführen der Aktivität oder des Befehls. Beispiel: Amazon EC2 Instance oder Amazon EMR-Cluster. | Referenzobjekt, z. B. „runsOn“: \$1"ref“:“ myResourceId „\$1 | 
| s3 EncryptionType | Überschreibt den Amazon S3-Verschlüsselungstyp. Die Werte sind SERVER\$1SIDE\$1ENCRYPTION oder NONE. Die serverseitige Verschlüsselung ist standardmäßig aktiviert.  | Aufzählung | 
| scheduleType | Mit dem Zeitplantyp können Sie angeben, ob die Objekte in Ihrer Pipeline-Definition am Anfang des Intervalls oder am Ende des Intervalls geplant werden sollen. Zeitreihenstilplanung bedeutet, dass Instances am Ende jedes Intervalls geplant werden und Cron-Stil-Planung bedeutet, dass Instances zu Beginn jedes Intervalls geplant werden. Ein On-Demand-Zeitplan ermöglicht es Ihnen, eine Pipeline einmal pro Aktivierung auszuführen. Dies bedeutet, dass Sie die Pipeline nicht klonen oder neu erstellen müssen, um sie erneut auszuführen. Wenn Sie einen On-Demand-Zeitplan verwenden, muss er im Standardobjekt angegeben werden und der einzige für die Objekte in der Pipeline angegebene scheduleType sein. Um On-Demand-Pipelines zu verwenden, rufen Sie den ActivatePipeline Vorgang einfach für jeden nachfolgenden Lauf auf. Die Werte sind: cron, ondemand und timeseries. | Aufzählung | 
| workerGroup | Die Auftragnehmergruppe. Dies wird für Routing-Aufgaben verwendet. Wenn Sie einen runsOn-Wert angeben und workerGroup vorhanden ist, wird workerGroup ignoriert. | Zeichenfolge | 

 


****  

| Laufzeitfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @activeInstances | Liste der aktuell geplanten aktiven Instance-Objekte. | Referenzobjekt, z. B. „ActiveInstances“: \$1"ref“:“ myRunnableObject Id "\$1 | 
| @actualEndTime | Zeitpunkt, zu dem die Ausführung dieses Objekts abgeschlossen wurde. | DateTime | 
| @actualStartTime | Zeitpunkt, zu dem die Ausführung dieses Objekts gestartet wurde. | DateTime | 
| cancellationReason | Die cancellationReason, wenn dieses Objekt storniert wurde. | Zeichenfolge | 
| @cascadeFailedOn | Beschreibung der Abhängigkeitskette, bei der das Objekt fehlgeschlagen ist. | Referenzobjekt, z. B. "cascadeFailedOn„: \$1" ref“:“ myRunnableObject Id "\$1 | 
| emrStepLog | EMR-Schrittprotokolle nur bei EMR-Aktivitätsversuchen verfügbar | Zeichenfolge | 
| errorId | Die errorId, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorMessage | Die errorMessage, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorStackTrace | Die Fehler-Stack-Ablaufverfolgung., wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| @finishedTime | Der Zeitpunkt, zu der dieses Objekt seine Ausführung beendet hat. | DateTime | 
| hadoopJobLog | Hadoop-Jobprotokolle für Versuche für EMR-basierte Aktivitäten verfügbar. | Zeichenfolge | 
| @healthStatus | Der Integritätsstatus des Objekts, der Erfolg oder Misserfolg der letzten Objekt-Instance widerspiegelt, die einen beendeten Zustand erreicht hat. | Zeichenfolge | 
| @healthStatusFromInstanceId | Id des Objekts der letzten Instance, das einen beendeten Zustand erreicht hat. | Zeichenfolge | 
| @ healthStatusUpdated Zeit | Zeitpunkt, zu dem der Servicestatus beim letzten Mal aktualisiert wurde. | DateTime | 
| hostname | Der Hostname des Clients, der den Aufgabenversuch aufnimmt. | Zeichenfolge | 
| @lastDeactivatedTime | Zeitpunkt, zu dem dieses Objekt zuletzt deaktiviert wurde. | DateTime | 
| @ latestCompletedRun Zeit | Zeitpunkt des letzten Laufs, für den die Ausführung abgeschlossen wurde. | DateTime | 
| @latestRunTime | Zeitpunkt des letzten Laufs, für den die Ausführung geplant war. | DateTime | 
| @nextRunTime | Zeitpunkt des Laufs, der als nächstes geplant werden soll | DateTime | 
| reportProgressTime | Der letzte Zeitpunkt, an dem die Remote-Aktivität einen Fortschritt gemeldet hat. | DateTime | 
| @scheduledEndTime | Endzeit für Objekt einplanen | DateTime | 
| @scheduledStartTime | Startzeit für Objekt einplanen | DateTime | 
| @Status | Der Status des Objekts. | Zeichenfolge | 
| @Version | Pipeline-Version, mit der das Objekt erstellt wurde. | Zeichenfolge | 
| @waitingOn | Beschreibung der Liste der Abhängigkeiten, auf die dieses Objekt wartet. | Referenzobjekt, z. B. „waitingOn“: \$1"ref“:“ myRunnableObject Id "\$1 | 

 


****  

| Systemfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @error | Fehler mit einer Beschreibung des falsch formatierten Objekts | Zeichenfolge | 
| @pipelineId | Id der Pipeline, zu der dieses Objekt gehört | Zeichenfolge | 
| @sphere | Die Kugel eines Objekts bezeichnet seinen Platz im Lebenszyklus: Komponentenobjekte ergeben Instance-Objekte, die Versuchsobjekte ausführen | Zeichenfolge | 

## Weitere Informationen finden Sie unter:
<a name="s3datanode-seealso"></a>
+ [MySqlDataNode](dp-object-mysqldatanode.md)

# SqlDataNode
<a name="dp-object-sqldatanode"></a>

 Legt ein Datenknoten mit SQL fest. 

## Beispiel
<a name="example-sql-data-node"></a>

Es folgt ein Beispiel für diesen Objekttyp. Dieses Objekt verweist auf zwei andere Objekte, die Sie in derselben Pipeline-Definitionsdatei definieren. `CopyPeriod` ist ein `Schedule`-Objekt und `Ready` ist ein Vorbedingungsobjekt.

```
{
  "id" : "Sql Table",
  "type" : "SqlDataNode",
  "schedule" : { "ref" : "CopyPeriod" },
  "table" : "adEvents",
  "database":"myDataBaseName",
  "selectQuery" : "select * from #{table} where eventTime >= '#{@scheduledStartTime.format('YYYY-MM-dd HH:mm:ss')}' and eventTime < '#{@scheduledEndTime.format('YYYY-MM-dd HH:mm:ss')}'",
  "precondition" : { "ref" : "Ready" }
}
```

## Syntax
<a name="sql-data-node-slots"></a>


****  

| Pflichtfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| Tabelle | Der Name der Tabelle in der SQL-Datenbank. | Zeichenfolge | 

 


****  

| Objektaufruf-Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| schedule | Dieses Objekt wird innerhalb der Ausführung eines Zeitplanintervalls aufgerufen. Benutzer müssen einen Zeitplanverweis auf ein anderes Objekt angeben, um die Abhängigkeitsausführungsreihenfolge für dieses Objekt festzulegen. Benutzer können diese Anforderung erfüllen, indem sie explizit einen Zeitplan für das Objekt festlegen, indem sie beispielsweise „schedule“: \$1"ref“: "DefaultSchedule„\$1 angeben. In den meisten Fällen ist es besser, den Zeitplanverweis auf das Standard-Pipeline-Objekt zu setzen, damit alle Objekte diesen Zeitplan erben. Wenn die Pipeline über einen Baum mit Zeitplänen verfügt (Zeitpläne innerhalb des Hauptplans), können Benutzer ein übergeordnetes Objekt mit Zeitplänenreferenz erstellen. Weitere Informationen zu optionalen Beispiel-Zeitplankonfigurationen finden Sie unter [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html). | Referenzobjekt, z. B. „schedule“: \$1"ref“:“ myScheduleId „\$1 | 

 


****  

| Optionale Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| attemptStatus | Zuletzt gemeldeter Status von der Remote-Aktivität. | Zeichenfolge | 
| attemptTimeout | Timeout für die Remote-Arbeit abgeschlossen. Wenn diese Option aktiviert ist, kann eine Remote-Aktivität, die nicht innerhalb der festgelegten Startzeit abgeschlossen wird, wiederholt werden. | Zeitraum | 
| createTableSql | Ein SQL-Tabellenerstellungsausdruck, der die Tabelle erstellt. | Zeichenfolge | 
| Datenbank | Name der Datenbank. | Referenzobjekt, z. B. „Datenbank“: \$1"ref“:“ myDatabaseId „\$1 | 
| dependsOn | Gibt die Abhängigkeit von einem anderen ausführbaren Objekt an. | Referenzobjekt, z. B. „dependSon“: \$1"ref“:“ myActivityId „\$1 | 
| failureAndRerunModus | Beschreibt das Verhalten des Konsumentenknotens, wenn Abhängigkeiten fehlschlagen oder erneut ausgeführt werden. | Aufzählung | 
| insertQuery | Eine SQL-Anweisung zum Einfügen von Daten in die Tabelle. | Zeichenfolge | 
| lateAfterTimeout | Die nach dem Start der Pipeline verstrichene Zeit, innerhalb der das Objekt abgeschlossen werden muss. Sie wird nur ausgelöst, wenn der Zeitplantyp nicht auf eingestellt ist. ondemand | Zeitraum | 
| maxActiveInstances | Die maximale Anzahl gleichzeitiger aktiver Instances einer Komponente. Wiederholungen zählen nicht zur Anzahl der aktiven Instances. | Ganzzahl | 
| maximumRetries | Maximale Anzahl von Versuchen bei Ausfällen | Ganzzahl | 
| onFail | Eine Aktion, die ausgeführt werden soll, wenn das aktuelle Objekt fehlschlägt. | Referenzobjekt, z. B. „onFail“: \$1"ref“:“ myActionId „\$1 | 
| onLateAction | Aktionen, die ausgelöst werden sollen, wenn ein Objekt noch nicht geplant oder noch nicht abgeschlossen wurde. | Referenzobjekt, z. B. "onLateAction„: \$1" ref“:“ myActionId „\$1 | 
| onSuccess | Eine Aktion, die ausgeführt wird, wenn das aktuelle Objekt erfolgreich ist. | Referenzobjekt, z. B. „onSuccess“: \$1"ref“:“ myActionId „\$1 | 
| übergeordneter | Übergeordnetes Objekt des aktuellen Objekts, aus dem Slots übernommen werden. | Referenzobjekt, z. B. „parent“: \$1"ref“:“ myBaseObject Id "\$1 | 
| pipelineLogUri | Die S3-URI (wie 's3://BucketName/Key/ ') zum Hochladen von Protokollen für die Pipeline. | Zeichenfolge | 
| precondition | Legen Sie optional eine Vorbedingung fest. Ein Datenknoten ist solange nicht als "BEREIT" markiert, bis alle Vorbedingungen erfüllt sind. | Referenzobjekt, z. B. „precondition“: \$1"ref“:“ „\$1 myPreconditionId | 
| reportProgressTimeout | Timeout für aufeinanderfolgende Aufrufe von Remote-Arbeit in reportProgress. Wenn diese Option aktiviert ist, werden Remote-Aktivitäten, die den Fortschritt für den angegebenen Zeitraum nicht melden, als fehlgeschlagen angesehen und es wird erneut versucht. | Zeitraum | 
| retryDelay | Die Zeitüberschreitungsdauer zwischen zwei Wiederholungsversuchen. | Zeitraum | 
| runsOn | Die Rechenressource zum Ausführen der Aktivität oder des Befehls. Beispiel: Amazon EC2 Instance oder Amazon EMR-Cluster. | Referenzobjekt, z. B. „runsOn“: \$1"ref“:“ myResourceId „\$1 | 
| scheduleType | Mit dem Zeitplantyp können Sie angeben, ob die Objekte in Ihrer Pipeline-Definition am Anfang des Intervalls oder am Ende des Intervalls geplant werden sollen. Zeitreihenstilplanung bedeutet, dass Instances am Ende jedes Intervalls geplant werden und Cron-Stil-Planung bedeutet, dass Instances zu Beginn jedes Intervalls geplant werden. Ein On-Demand-Zeitplan ermöglicht es Ihnen, eine Pipeline einmal pro Aktivierung auszuführen. Dies bedeutet, dass Sie die Pipeline nicht klonen oder neu erstellen müssen, um sie erneut auszuführen. Wenn Sie einen On-Demand-Zeitplan verwenden, muss er im Standardobjekt angegeben werden und der einzige für die Objekte in der Pipeline angegebene scheduleType sein. Um On-Demand-Pipelines zu verwenden, rufen Sie den ActivatePipeline Vorgang einfach für jeden nachfolgenden Lauf auf. Die Werte sind: cron, ondemand und timeseries. | Aufzählung | 
| schemaName | Der Name des Schemas für die Tabelle. | Zeichenfolge | 
| selectQuery | Eine SQL-Anweisung zum Abrufen von Daten aus der Tabelle. | Zeichenfolge | 
| workerGroup | Die Auftragnehmergruppe. Dies wird für Routing-Aufgaben verwendet. Wenn Sie einen runsOn-Wert angeben und workerGroup vorhanden ist, wird workerGroup ignoriert. | Zeichenfolge | 

 


****  

| Laufzeitfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @activeInstances | Liste der aktuell geplanten aktiven Instance-Objekte. | Referenzobjekt, z. B. „ActiveInstances“: \$1"ref“:“ myRunnableObject Id "\$1 | 
| @actualEndTime | Zeitpunkt, zu dem die Ausführung dieses Objekts abgeschlossen wurde. | DateTime | 
| @actualStartTime | Zeitpunkt, zu dem die Ausführung dieses Objekts gestartet wurde. | DateTime | 
| cancellationReason | Die cancellationReason, wenn dieses Objekt storniert wurde. | Zeichenfolge | 
| @cascadeFailedOn | Beschreibung der Abhängigkeitskette, bei der das Objekt fehlgeschlagen ist. | Referenzobjekt, z. B. "cascadeFailedOn„: \$1" ref“:“ myRunnableObject Id "\$1 | 
| emrStepLog | EMR-Schrittprotokolle nur bei EMR-Aktivitätsversuchen verfügbar | Zeichenfolge | 
| errorId | Die errorId, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorMessage | Die errorMessage, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorStackTrace | Die Fehler-Stack-Ablaufverfolgung., wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| @finishedTime | Der Zeitpunkt, zu der dieses Objekt seine Ausführung beendet hat. | DateTime | 
| hadoopJobLog | Hadoop-Jobprotokolle für Versuche für EMR-basierte Aktivitäten verfügbar. | Zeichenfolge | 
| @healthStatus | Der Integritätsstatus des Objekts, der Erfolg oder Misserfolg der letzten Objekt-Instance widerspiegelt, die einen beendeten Zustand erreicht hat. | Zeichenfolge | 
| @healthStatusFromInstanceId | Id des Objekts der letzten Instance, das einen beendeten Zustand erreicht hat. | Zeichenfolge | 
| @ healthStatusUpdated Zeit | Zeitpunkt, zu dem der Servicestatus beim letzten Mal aktualisiert wurde. | DateTime | 
| hostname | Der Hostname des Clients, der den Aufgabenversuch aufnimmt. | Zeichenfolge | 
| @lastDeactivatedTime | Zeitpunkt, zu dem dieses Objekt zuletzt deaktiviert wurde. | DateTime | 
| @ latestCompletedRun Zeit | Zeitpunkt des letzten Laufs, für den die Ausführung abgeschlossen wurde. | DateTime | 
| @latestRunTime | Zeitpunkt des letzten Laufs, für den die Ausführung geplant war. | DateTime | 
| @nextRunTime | Zeitpunkt des Laufs, der als nächstes geplant werden soll | DateTime | 
| reportProgressTime | Der letzte Zeitpunkt, an dem die Remote-Aktivität einen Fortschritt gemeldet hat. | DateTime | 
| @scheduledEndTime | Endzeit für Objekt einplanen | DateTime | 
| @scheduledStartTime | Startzeit für Objekt einplanen | DateTime | 
| @Status | Der Status des Objekts. | Zeichenfolge | 
| @Version | Pipeline-Version, mit der das Objekt erstellt wurde. | Zeichenfolge | 
| @waitingOn | Beschreibung der Liste der Abhängigkeiten, auf die dieses Objekt wartet. | Referenzobjekt, z. B. „waitingOn“: \$1"ref“:“ myRunnableObject Id "\$1 | 

 


****  

| Systemfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @error | Fehler mit einer Beschreibung des falsch formatierten Objekts | Zeichenfolge | 
| @pipelineId | Id der Pipeline, zu der dieses Objekt gehört | Zeichenfolge | 
| @sphere | Die Kugel eines Objekts bezeichnet seinen Platz im Lebenszyklus: Komponentenobjekte ergeben Instance-Objekte, die Versuchsobjekte ausführen | Zeichenfolge | 

## Weitere Informationen finden Sie unter:
<a name="sql-data-node-see-also"></a>
+ [S3 DataNode](dp-object-s3datanode.md)

# Aktivitäten
<a name="dp-object-activities"></a>

Im Folgenden sind die AWS Data Pipeline Aktivitätsobjekte aufgeführt:

**Topics**
+ [CopyActivity](dp-object-copyactivity.md)
+ [EmrActivity](dp-object-emractivity.md)
+ [HadoopActivity](dp-object-hadoopactivity.md)
+ [HiveActivity](dp-object-hiveactivity.md)
+ [HiveCopyActivity](dp-object-hivecopyactivity.md)
+ [PigActivity](dp-object-pigactivity.md)
+ [RedshiftCopyActivity](dp-object-redshiftcopyactivity.md)
+ [ShellCommandActivity](dp-object-shellcommandactivity.md)
+ [SqlActivity](dp-object-sqlactivity.md)

# CopyActivity
<a name="dp-object-copyactivity"></a>

Kopiert Daten von einem Ort an einen anderen. `CopyActivity`unterstützt [S3 DataNode](dp-object-s3datanode.md) und [SqlDataNode](dp-object-sqldatanode.md) als Eingabe und Ausgabe, und der Kopiervorgang wird normalerweise ausgeführt record-by-record. `CopyActivity`Stellt jedoch eine leistungsstarke Kopie von Amazon S3 zu Amazon S3 bereit, wenn alle folgenden Bedingungen erfüllt sind:
+ Die Eingabe und Ausgabe sind S3 DataNodes
+ Das Feld `dataFormat` ist für Ein- und Ausgabe dasselbe.

Wenn Sie die komprimierten Daten als Eingabe verwenden und dies nicht über as Feld `compression` auf den S3-Datenknoten angeben, kann `CopyActivity` möglicherweise fehlschlagen. In diesem Fall erkennt `CopyActivity` das Ende Datensatzzeichens nicht ordnungsgemäß und der Vorgang schlägt fehl. `CopyActivity`Unterstützt außerdem das Kopieren von einem Verzeichnis in ein anderes Verzeichnis und das Kopieren einer Datei in ein Verzeichnis. Das record-by-record Kopieren erfolgt jedoch, wenn ein Verzeichnis in eine Datei kopiert wird. Schließlich `CopyActivity` unterstützt das Kopieren mehrteiliger Amazon S3 S3-Dateien nicht. 

Bei `CopyActivity` gibt es bestimmte Einschränkungen der CSV-Unterstützung. Wenn Sie ein S3 DataNode als Eingabe für verwenden`CopyActivity`, können Sie nur eine Unix/Linux Variante des CSV-Datendateiformats für die Amazon S3 S3-Eingabe- und Ausgabefelder verwenden. Die Unix/Linux Variante erfordert Folgendes: 
+ Das Trennzeichen muss ein Komma (,) sein.
+ Die Datensätze werden nicht in Anführungszeichen gesetzt.
+ Das Standard-Escape-Zeichen ist ASCII-Wert 92 (Backslash).
+ Das Datensatzende-Identifier ist ASCII-Wert 10 (oder "\$1n").

Windows-basierte Systeme verwenden in der Regel eine andere end-of-record Zeichenfolge: einen Zeilenumbruch und einen Zeilenvorschub zusammen (ASCII-Wert 13 und ASCII-Wert 10). Sie müssen diesen Unterschied mit einem zusätzlichen Mechanismus ausgleichen, z. B. einem Skript zum Ändern der Eingabedaten vor dem Kopieren, um sicherzustellen, dass `CopyActivity` das Datensatzende korrekt erkennt. Andernfalls schlägt `CopyActivity` wiederholt fehl.

Wenn Sie mit `CopyActivity` einen Exportvorgang von einem PostgreSQL-RDS-Objekt in das TSV-Datenformat durchführen, ist das Standard-NULL-Zeichen \$1n.

## Beispiel
<a name="copyactivity-example"></a>

Es folgt ein Beispiel für diesen Objekttyp. Dieses Objekt verweist auf drei andere Objekte, die Sie in derselben Pipeline-Definitionsdatei definieren. `CopyPeriod` ist ein `Schedule`-Objekt und `InputData` und `OutputData` sind Datenknotenobjekte.

```
{
  "id" : "S3ToS3Copy",
  "type" : "CopyActivity",
  "schedule" : { "ref" : "CopyPeriod" },
  "input" : { "ref" : "InputData" },
  "output" : { "ref" : "OutputData" },
  "runsOn" : { "ref" : "MyEc2Resource" }
}
```

## Syntax
<a name="copyactivity-syntax"></a>


****  

| Objektaufruf-Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| schedule | Dieses Objekt wird innerhalb der Ausführung eines Zeitplanintervalls aufgerufen. Benutzer müssen einen Zeitplanverweis auf ein anderes Objekt angeben, um die Abhängigkeitsausführungsreihenfolge für dieses Objekt festzulegen. Benutzer können diese Anforderung erfüllen, indem sie explizit einen Zeitplan für das Objekt festlegen, indem sie beispielsweise „schedule“: \$1"ref“: "„\$1 angeben. DefaultSchedule In den meisten Fällen ist es besser, den Zeitplanverweis auf das Standard-Pipeline-Objekt zu setzen, damit alle Objekte diesen Zeitplan erben. Wenn die Pipeline über einen Baum mit Zeitplänen verfügt (Zeitpläne innerhalb des Hauptplans), können Benutzer ein übergeordnetes Objekt mit Zeitplänenreferenz erstellen. Weitere Informationen zu optionalen Beispiel-Zeitplankonfigurationen finden Sie unter [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html). | Referenzobjekt, z. B. „schedule“: \$1"ref“:“ myScheduleId „\$1 | 


****  

| Erforderliche Gruppe (mindestens eine der folgenden ist erforderlich) | Description | Slot-Typ | 
| --- | --- | --- | 
| runsOn | Die Rechenressource zum Ausführen der Aktivität oder des Befehls. Beispiel: Amazon EC2 Instance oder Amazon EMR-Cluster. | Referenzobjekt, z. B. „runsOn“: \$1"ref“:“ myResourceId „\$1 | 
| workerGroup | Die Auftragnehmergruppe. Dies wird für Routing-Aufgaben verwendet. Wenn Sie einen runsOn-Wert angeben und workerGroup vorhanden ist, wird workerGroup ignoriert. | Zeichenfolge | 

 


****  

| Optionale Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| attemptStatus | Zuletzt gemeldeter Status von der Remote-Aktivität. | Zeichenfolge | 
| attemptTimeout | Timeout für die Remote-Arbeit abgeschlossen. Wenn diese Option aktiviert ist, kann eine Remote-Aktivität, die nicht innerhalb der festgelegten Startzeit abgeschlossen wird, wiederholt werden. | Zeitraum | 
| dependsOn | Angeben der Abhängigkeit von einem anderen ausführbaren Objekt. | Referenzobjekt, z. B. „dependSon“: \$1"ref“:“ myActivityId „\$1 | 
| failureAndRerunModus | Beschreibt das Verhalten des Konsumentenknotens, wenn Abhängigkeiten fehlschlagen oder erneut ausgeführt werden | Aufzählung | 
| input | Die Eingangsdatenquelle. | Referenzobjekt, z. B. „input“: \$1"ref“:“ myDataNode Id "\$1 | 
| lateAfterTimeout | Die nach dem Start der Pipeline verstrichene Zeit, innerhalb der das Objekt abgeschlossen werden muss. Sie wird nur ausgelöst, wenn der Zeitplantyp nicht auf eingestellt ist. ondemand | Zeitraum | 
| maxActiveInstances | Die maximale Anzahl gleichzeitiger aktiver Instances einer Komponente. Wiederholungen zählen nicht zur Anzahl der aktiven Instances. | Ganzzahl | 
| maximumRetries | Maximale Anzahl von Versuchen bei Ausfällen | Ganzzahl | 
| onFail | Eine Aktion, die ausgeführt werden soll, wenn das aktuelle Objekt fehlschlägt. | Referenzobjekt, z. B. „onFail“: \$1"ref“:“ myActionId „\$1 | 
| onLateAction | Aktionen, die ausgelöst werden sollen, wenn ein Objekt noch nicht geplant oder noch nicht abgeschlossen wurde. | Referenzobjekt, z. B. "onLateAction„: \$1" ref“:“ myActionId „\$1 | 
| onSuccess | Eine Aktion, die ausgeführt wird, wenn das aktuelle Objekt erfolgreich ist. | Referenzobjekt, z. B. „onSuccess“: \$1"ref“:“ myActionId „\$1 | 
| output | Die Eingangsdatenquelle. | Referenzobjekt, z. B. „output“: \$1"ref“:“ myDataNode Id "\$1 | 
| übergeordneter | Übergeordnetes Objekt des aktuellen Objekts, aus dem Slots übernommen werden. | Referenzobjekt, z. B. „parent“: \$1"ref“:“ myBaseObject Id "\$1 | 
| pipelineLogUri | Die S3-URI (wie 's3://BucketName/Key/ ') zum Hochladen von Protokollen für die Pipeline. | Zeichenfolge | 
| precondition | Legen Sie optional eine Vorbedingung fest. Ein Datenknoten ist solange nicht als "BEREIT" markiert, bis alle Vorbedingungen erfüllt sind. | Referenzobjekt, z. B. „precondition“: \$1"ref“:“ „\$1 myPreconditionId | 
| reportProgressTimeout | Timeout für aufeinanderfolgende Aufrufe von Remote-Arbeit in reportProgress. Wenn diese Option aktiviert ist, werden Remote-Aktivitäten, die den Fortschritt für den angegebenen Zeitraum nicht melden, als fehlgeschlagen angesehen und es wird erneut versucht. | Zeitraum | 
| retryDelay | Die Zeitüberschreitungsdauer zwischen zwei Wiederholungsversuchen. | Zeitraum | 
| scheduleType | Mit dem Zeitplantyp können Sie angeben, ob die Objekte in Ihrer Pipeline-Definition am Anfang des Intervalls oder am Ende des Intervalls geplant werden sollen. Zeitreihenstilplanung bedeutet, dass Instances am Ende jedes Intervalls geplant werden und Cron-Stil-Planung bedeutet, dass Instances zu Beginn jedes Intervalls geplant werden. Ein On-Demand-Zeitplan ermöglicht es Ihnen, eine Pipeline einmal pro Aktivierung auszuführen. Dies bedeutet, dass Sie die Pipeline nicht klonen oder neu erstellen müssen, um sie erneut auszuführen. Wenn Sie einen On-Demand-Zeitplan verwenden, muss er im Standardobjekt angegeben werden und der einzige für die Objekte in der Pipeline angegebene scheduleType sein. Um On-Demand-Pipelines zu verwenden, rufen Sie den ActivatePipeline Vorgang einfach für jeden nachfolgenden Lauf auf. Die Werte sind: cron, ondemand und timeseries. | Aufzählung | 

 


****  

| Laufzeitfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @activeInstances | Liste der aktuell geplanten aktiven Instance-Objekte. | Referenzobjekt, z. B. „ActiveInstances“: \$1"ref“:“ myRunnableObject Id "\$1 | 
| @actualEndTime | Zeitpunkt, zu dem die Ausführung dieses Objekts abgeschlossen wurde. | DateTime | 
| @actualStartTime | Zeitpunkt, zu dem die Ausführung dieses Objekts gestartet wurde. | DateTime | 
| cancellationReason | Die cancellationReason, wenn dieses Objekt storniert wurde. | Zeichenfolge | 
| @cascadeFailedOn | Beschreibung der Zuständigkeitskette, bei der das Objekt fehlgeschlagen ist. | Referenzobjekt, z. B. "cascadeFailedOn„: \$1" ref“:“ myRunnableObject Id "\$1 | 
| emrStepLog | EMR-Schrittprotokolle nur bei EMR-Aktivitätsversuchen verfügbar | Zeichenfolge | 
| errorId | Die errorId, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorMessage | Die errorMessage, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorStackTrace | Die Fehler-Stack-Ablaufverfolgung., wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| @finishedTime | Der Zeitpunkt, zu der dieses Objekt seine Ausführung beendet hat. | DateTime | 
| hadoopJobLog | Hadoop-Jobprotokolle für Versuche für EMR-basierte Aktivitäten verfügbar. | Zeichenfolge | 
| @healthStatus | Der Integritätsstatus des Objekts, der Erfolg oder Misserfolg der letzten Objekt-Instance widerspiegelt, die einen beendeten Zustand erreicht hat. | Zeichenfolge | 
| @healthStatusFromInstanceId | Id des Objekts der letzten Instance, das einen beendeten Zustand erreicht hat. | Zeichenfolge | 
| @ healthStatusUpdated Zeit | Zeitpunkt, zu dem der Servicestatus beim letzten Mal aktualisiert wurde. | DateTime | 
| hostname | Der Hostname des Clients, der den Aufgabenversuch aufnimmt. | Zeichenfolge | 
| @lastDeactivatedTime | Zeitpunkt, zu dem dieses Objekt zuletzt deaktiviert wurde. | DateTime | 
| @ latestCompletedRun Zeit | Zeitpunkt des letzten Laufs, für den die Ausführung abgeschlossen wurde. | DateTime | 
| @latestRunTime | Zeitpunkt des letzten Laufs, für den die Ausführung geplant war. | DateTime | 
| @nextRunTime | Zeitpunkt des Laufs, der als nächstes geplant werden soll | DateTime | 
| reportProgressTime | Der letzte Zeitpunkt, an dem die Remote-Aktivität einen Fortschritt gemeldet hat. | DateTime | 
| @scheduledEndTime | Endzeit für Objekt einplanen | DateTime | 
| @scheduledStartTime | Startzeit für Objekt einplanen | DateTime | 
| @Status | Der Status des Objekts. | Zeichenfolge | 
| @Version | Pipeline-Version, mit der das Objekt erstellt wurde. | Zeichenfolge | 
| @waitingOn | Beschreibung der Liste der Abhängigkeiten, auf die dieses Objekt wartet. | Referenzobjekt, z. B. „waitingOn“: \$1"ref“:“ myRunnableObject Id "\$1 | 

 


****  

| Systemfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @error | Fehler mit einer Beschreibung des falsch formatierten Objekts | Zeichenfolge | 
| @pipelineId | Id der Pipeline, zu der dieses Objekt gehört | Zeichenfolge | 
| @sphere | Die Kugel eines Objekts bezeichnet seinen Platz im Lebenszyklus: Komponentenobjekte ergeben Instance-Objekte, die Versuchsobjekte ausführen | Zeichenfolge | 

## Weitere Informationen finden Sie unter:
<a name="copyactivity-seealso"></a>
+ [ShellCommandActivity](dp-object-shellcommandactivity.md)
+ [EmrActivity](dp-object-emractivity.md)
+ [Exportieren Sie MySQL-Daten nach Amazon S3 mit AWS Data Pipeline](dp-copydata-mysql.md)

# EmrActivity
<a name="dp-object-emractivity"></a>

 Führt einen EMR-Cluster. 

AWS Data Pipeline verwendet ein anderes Format für Schritte als Amazon EMR; AWS Data Pipeline verwendet beispielsweise kommagetrennte Argumente nach dem JAR-Namen im `EmrActivity` Schrittfeld. Das folgende Beispiel zeigt einen für Amazon EMR formatierten Schritt, gefolgt von seinem AWS Data Pipeline Äquivalent:

```
s3://amzn-s3-demo-bucket/MyWork.jar arg1 arg2 arg3
```

```
"s3://amzn-s3-demo-bucket/MyWork.jar,arg1,arg2,arg3"
```

## Beispiele
<a name="emractivity-example"></a>

Es folgt ein Beispiel für diesen Objekttyp. In diesem Beispiel werden ältere Versionen von Amazon EMR verwendet. Überprüfen Sie die Richtigkeit dieses Beispiels anhand der Version des Amazon EMR-Clusters, die Sie verwenden. 

Dieses Objekt verweist auf drei andere Objekte, die Sie in derselben Pipeline-Definitionsdatei definieren. `MyEmrCluster` ist ein `EmrCluster`-Objekt und `MyS3Input` und `MyS3Output` sind `S3DataNode`-Objekte. 

**Anmerkung**  
In diesem Beispiel können Sie das Feld `step` mit der gewünschten Cluster-Zeichenfolge ersetzen. Hierbei kann es sich u. a. um ein Pig-Skript, ein Hadoop-Streaming-Cluster oder Ihre eigene benutzerdefinierte JAR-Datei mit ihren Parametern handeln.

Hadoop 2.x (AMI 3.x)

```
{
  "id" : "MyEmrActivity",
  "type" : "EmrActivity",
  "runsOn" : { "ref" : "MyEmrCluster" },
  "preStepCommand" : "scp remoteFiles localFiles",
  "step" : ["s3://amzn-s3-demo-bucket/myPath/myStep.jar,firstArg,secondArg,-files,s3://amzn-s3-demo-bucket/myPath/myFile.py,-input,s3://myinputbucket/path,-output,s3://myoutputbucket/path,-mapper,myFile.py,-reducer,reducerName","s3://amzn-s3-demo-bucket/myPath/myotherStep.jar,..."],
  "postStepCommand" : "scp localFiles remoteFiles",
  "input" : { "ref" : "MyS3Input" },
  "output" : { "ref" : "MyS3Output" }
}
```

**Anmerkung**  
Um in einem Schritt Argumente an eine Anwendung zu übergeben, müssen Sie die Region im Pfad des Skripts angeben, wie im folgenden Beispiel gezeigt: Darüber hinaus müssen Sie für die zu übergebenden Argumente möglicherweise ein Escape-Zeichen verwenden. Wenn Sie beispielsweise mit `script-runner.jar` ein Shell-Skript ausführen und Argumente an das Skript übergeben möchten, müssen Sie für die Kommas, die als Trennzeichen dienen, Escape-Zeichen verwenden. Der folgende Schritt-Slot veranschaulicht die entsprechende Vorgehensweise:   

```
"step" : "s3://eu-west-1.elasticmapreduce/libs/script-runner/script-runner.jar,s3://datapipeline/echo.sh,a\\\\,b\\\\,c"
```
Dieser Schritt verwendet `script-runner.jar`, um das Shell-Skript `echo.sh` auszuführen, und übergibt `a`, `b` und `c` als einzelne Argumente an das Skript. Die erste Escape-Zeichen wird vom resultierenden Argument entfernt, weshalb Sie möglicherweise erneut ein Escape-Zeichen verwenden müssen. Wenn Sie beispielsweise `File\.gz` als Argument in JSON verwendet haben, können Sie als Escape-Zeichen `File\\\\.gz` verwenden. Da das erste Escape-Zeichen jedoch verworfen wird, müssen Sie `File\\\\\\\\.gz ` verwenden.

## Syntax
<a name="emractivity-syntax"></a>


****  

| Objektaufruf-Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| schedule | Dieses Objekt wird innerhalb der Ausführung eines Zeitplanintervalls aufgerufen. Sie müssen einen Zeitplanverweis auf ein anderes Objekt angeben, um die Abhängigkeitsausführungsreihenfolge für dieses Objekt festzulegen. Sie können diese Anforderung erfüllen, indem Sie explizit einen Zeitplan für das Objekt festlegen, indem sie beispielsweise "schedule": \$1"ref": "DefaultSchedule"\$1 angeben. In den meisten Fällen ist es besser, den Zeitplanverweis auf das Standard-Pipeline-Objekt zu setzen, damit alle Objekte diesen Zeitplan erben. Wenn die Pipeline über einen Baum mit Zeitplänen verfügt (Zeitpläne innerhalb des Hauptplans), können Sie ein übergeordnetes Objekt mit Zeitplänenreferenz erstellen. Weitere Informationen zu optionalen Beispiel-Zeitplankonfigurationen finden Sie unter [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html). | Referenzobjekt, zum Beispiel „schedule“: \$1"ref“:“ myScheduleId „\$1 | 

 


****  

| Erforderliche Gruppe (mindestens eine der folgenden ist erforderlich) | Description | Slot-Typ | 
| --- | --- | --- | 
| runsOn | Der Amazon EMR-Cluster, auf dem dieser Job ausgeführt wird. | Referenzobjekt, zum Beispiel „runsOn“: \$1"ref“:“ myEmrCluster Id "\$1 | 
| workerGroup | Die Auftragnehmergruppe. Dies wird für Routing-Aufgaben verwendet. Wenn Sie einen runsOn-Wert angeben und workerGroup vorhanden ist, wird ignoriert.workerGroup | Zeichenfolge | 

 


****  

| Optionale Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| attemptStatus | Zuletzt gemeldeter Status von der Remote-Aktivität. | Zeichenfolge | 
| attemptTimeout | Timeout für die Remote-Arbeit abgeschlossen. Wenn diese Option aktiviert ist, kann eine Remote-Aktivität, die nicht innerhalb der festgelegten Startzeit abgeschlossen wird, wiederholt werden. | Zeitraum | 
| dependsOn | Angeben der Abhängigkeit von einem anderen ausführbaren Objekt. | Referenzobjekt, zum Beispiel „dependSon“: \$1"ref“:“ myActivityId „\$1 | 
| failureAndRerunModus | Beschreibt das Verhalten des Konsumentenknotens, wenn Abhängigkeiten fehlschlagen oder erneut ausgeführt werden. | Aufzählung | 
| input | Der Speicherort der Eingabedaten. | Referenzobjekt, zum Beispiel „input“: \$1"ref“:“ myDataNode Id "\$1 | 
| lateAfterTimeout | Die verstrichene Zeit nach dem Start der Pipeline, innerhalb derer das Objekt abgeschlossen werden muss. Sie wird nur ausgelöst, wenn der Zeitplantyp nicht auf eingestellt ist. ondemand | Zeitraum | 
| maxActiveInstances | Die maximale Anzahl gleichzeitiger aktiver Instances einer Komponente. Wiederholungen zählen nicht zur Anzahl der aktiven Instances. | Ganzzahl | 
| maximumRetries | Die maximale Anzahl von Versuchen bei Ausfällen. | Ganzzahl | 
| onFail | Eine Aktion, die ausgeführt werden soll, wenn das aktuelle Objekt fehlschlägt. | Referenzobjekt, zum Beispiel „onFail“: \$1"ref“:“ myActionId „\$1 | 
| onLateAction | Aktionen, die ausgelöst werden sollen, wenn ein Objekt noch nicht geplant oder noch nicht abgeschlossen wurde. | Referenzobjekt, zum Beispiel "onLateAction„: \$1" ref“:“ myActionId „\$1 | 
| onSuccess | Eine Aktion, die ausgeführt wird, wenn das aktuelle Objekt erfolgreich ist. | Referenzobjekt, zum Beispiel „onSuccess“: \$1"ref“:“ myActionId „\$1 | 
| output | Der Speicherort der Ausgabedaten.  | Referenzobjekt, zum Beispiel „output“: \$1"ref“:“ myDataNode Id "\$1 | 
| übergeordneter | Das übergeordnetes Objekt des aktuellen Objekts, aus dem Slots übernommen werden. | Referenzobjekt, zum Beispiel „parent“: \$1"ref“:“ myBaseObject Id "\$1 | 
| pipelineLogUri | Die Amazon S3 S3-URI, z. B. 's3://BucketName/Prefix/ 'zum Hochladen von Protokollen für die Pipeline. | Zeichenfolge | 
| postStepCommand | Shell-Skripts, die nach Abschluss aller Schritte ausgeführt werden. Wenn Sie mehrere Skripts angeben möchten (maximal 255), fügen Sie die entsprechende Anzahl von postStepCommand-Feldern hinzu. | Zeichenfolge | 
| precondition | Legen Sie optional eine Vorbedingung fest. Ein Datenknoten ist solange nicht als "BEREIT" markiert, bis alle Vorbedingungen erfüllt sind. | Referenzobjekt, zum Beispiel „precondition“: \$1"ref“:“ „\$1 myPreconditionId | 
| preStepCommand | Shell-Skripts, die vor allen Schritten ausgeführt werden. Wenn Sie mehrere Skripts angeben möchten (maximal 255), fügen Sie die entsprechende Anzahl von preStepCommand-Feldern hinzu. | Zeichenfolge | 
| reportProgressTimeout | Das Timeout für aufeinanderfolgende Aufrufe von reportProgress durch Remote-Arbeit. Wenn diese Option aktiviert ist, werden Remote-Aktivitäten, die den Fortschritt für den angegebenen Zeitraum nicht melden, als fehlgeschlagen angesehen und es wird erneut versucht. | Zeitraum | 
| resizeClusterBeforeWird ausgeführt |  Ändern Sie die Größe des Clusters, bevor Sie diese Aktivität ausführen, um DynamoDB-Tabellen aufzunehmen, die als Eingaben oder Ausgaben angegeben sind.   Wenn Sie `EmrActivity` a entweder `DynamoDBDataNode` als Eingabe- oder Ausgabedatenknoten verwenden und den Wert auf setzen`TRUE`, AWS Data Pipeline beginnen Sie mit der `resizeClusterBeforeRunning` Verwendung von `m3.xlarge` Instance-Typen. Dadurch wird Ihre Auswahl an Instance-Typen mit `m3.xlarge` überschrieben, wodurch Ihre monatlichen Kosten ansteigen könnten.   | Boolesch | 
| resizeClusterMaxInstanzen | Ein Limit für die maximale Anzahl von Instances, die vom Resize-Algorithmus angefordert werden können. | Ganzzahl | 
| retryDelay | Die Zeitüberschreitungsdauer zwischen zwei Wiederholungsversuchen. | Zeitraum | 
| scheduleType | Mit dem Zeitplantyp können Sie angeben, ob die Objekte in Ihrer Pipeline-Definition am Anfang des Intervalls oder am Ende des Intervalls geplant werden sollen. Werte sind cron, ondemand und timeseries. Die timeseries-Planung bedeutet, dass Instances am Ende jedes Intervalls geplant sind. Die cron-Planung bedeutet, dass Instances am Anfang jedes Intervalls geplant sind. Ein ondemand-Zeitplan ermöglicht es Ihnen, eine Pipeline einmal pro Aktivierung auszuführen. Sie müssen die Pipeline nicht klonen oder neu erstellen, um sie erneut auszuführen. Wenn Sie einen ondemand-Zeitplan verwenden, muss er im Standardobjekt angegeben werden und der einzige für die Objekte in der Pipeline angegebene scheduleType sein. Um ondemand-Pipelines zu verwenden, rufen Sie einfach den ActivatePipeline-Vorgang für jeden nachfolgenden Lauf auf.  | Aufzählung | 
| Schritt | Einzelne oder mehrere vom Cluster auszuführende Schritte. Wenn Sie mehrere Schritte angeben möchten (maximal 255), fügen Sie die entsprechende Anzahl von step-Feldern hinzu. Verwenden Sie durch Komma getrennte Argumente nach dem JAR-Namen, z. B. "s3://amzn-s3-demo-bucket/MyWork.jar,arg1,arg2,arg3". | Zeichenfolge | 

 


****  

| Laufzeitfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @activeInstances | Liste der aktuell geplanten aktiven Instance-Objekte. | Referenzobjekt, z. B. „activeInstances“: \$1"ref“:“ myRunnableObject Id "\$1 | 
| @actualEndTime | Zeitpunkt, zu dem die Ausführung dieses Objekts abgeschlossen wurde. | DateTime | 
| @actualStartTime | Zeitpunkt, zu dem die Ausführung dieses Objekts gestartet wurde. | DateTime | 
| cancellationReason | Die cancellationReason, wenn dieses Objekt storniert wurde. | Zeichenfolge | 
| @cascadeFailedOn | Beschreibung der Abhängigkeitskette, bei der das Objekt fehlgeschlagen ist. | Referenzobjekt, zum Beispiel "cascadeFailedOn„: \$1" ref“:“ myRunnableObject Id "\$1 | 
| emrStepLog | Amazon EMR-Schrittprotokolle sind nur bei EMR-Aktivitätsversuchen verfügbar | Zeichenfolge | 
| errorId | Die errorId, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorMessage | Die errorMessage, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorStackTrace | Die Fehler-Stack-Ablaufverfolgung., wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| @finishedTime | Der Zeitpunkt, zu der dieses Objekt seine Ausführung beendet hat. | DateTime | 
| hadoopJobLog | Hadoop-Jobprotokolle für Versuche für EMR-basierte Aktivitäten verfügbar. | Zeichenfolge | 
| @healthStatus | Der Integritätsstatus des Objekts, der Erfolg oder Misserfolg der letzten Objekt-Instance widerspiegelt, die einen beendeten Zustand erreicht hat. | Zeichenfolge | 
| @healthStatusFromInstanceId | Id des Objekts der letzten Instance, das einen beendeten Zustand erreicht hat. | Zeichenfolge | 
| @ Zeit healthStatusUpdated | Zeitpunkt, zu dem der Servicestatus beim letzten Mal aktualisiert wurde. | DateTime | 
| hostname | Der Hostname des Clients, der den Aufgabenversuch aufnimmt. | Zeichenfolge | 
| @lastDeactivatedTime | Zeitpunkt, zu dem dieses Objekt zuletzt deaktiviert wurde. | DateTime | 
| @ latestCompletedRun Zeit | Zeitpunkt des letzten Laufs, für den die Ausführung abgeschlossen wurde. | DateTime | 
| @latestRunTime | Zeitpunkt des letzten Laufs, für den die Ausführung geplant war. | DateTime | 
| @nextRunTime | Zeitpunkt des Laufs, der als nächstes geplant werden soll | DateTime | 
| reportProgressTime | Der letzte Zeitpunkt, an dem die Remote-Aktivität einen Fortschritt gemeldet hat. | DateTime | 
| @scheduledEndTime | Endzeit für das Objekt einplanen. | DateTime | 
| @scheduledStartTime | Startzeit für das Objekt einplanen. | DateTime | 
| @Status | Der Status des Objekts. | Zeichenfolge | 
| @Version | Pipeline-Version, mit der das Objekt erstellt wurde | Zeichenfolge | 
| @waitingOn | Beschreibung der Liste der Abhängigkeiten, auf die dieses Objekt wartet. | Referenzobjekt, zum Beispiel „WaitingOn“: \$1"ref“:“ myRunnableObject Id "\$1 | 

 


****  

| Systemfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @error | Fehler mit einer Beschreibung des falsch formatierten Objekts. | Zeichenfolge | 
| @pipelineId | ID der Pipeline, zu der dieses Objekt gehört. | Zeichenfolge | 
| @sphere | Die Kugel eines Objekts bezeichnet seinen Platz im Lebenszyklus: Komponentenobjekte ergeben Instance-Objekte, die Versuchsobjekte ausführen. | Zeichenfolge | 

## Weitere Informationen finden Sie unter:
<a name="emractivity-seealso"></a>
+ [ShellCommandActivity](dp-object-shellcommandactivity.md)
+ [CopyActivity](dp-object-copyactivity.md)
+ [EmrCluster](dp-object-emrcluster.md)

# HadoopActivity
<a name="dp-object-hadoopactivity"></a>

 Führt einen MapReduce Job auf einem Cluster aus. Bei dem Cluster kann es sich um einen EMR-Cluster handeln, der von AWS Data Pipeline oder einer anderen Ressource verwaltet wird, wenn Sie ihn verwenden TaskRunner. Verwenden Sie diese Option, HadoopActivity wenn Sie parallel arbeiten möchten. Auf diese Weise können Sie die Planungsressourcen des YARN-Frameworks oder des MapReduce Resource Negotiators in Hadoop 1 verwenden. Wenn Sie die Arbeit sequenziell mit der Amazon EMR Step-Aktion ausführen möchten, können Sie dies trotzdem verwenden. [EmrActivity](dp-object-emractivity.md)

## Beispiele
<a name="hadoopactivity-example"></a>

**HadoopActivity unter Verwendung eines EMR-Clusters, verwaltet von AWS Data Pipeline**  
Das folgende HadoopActivity Objekt verwendet eine EmrCluster Ressource, um ein Programm auszuführen:

```
 {
   "name": "MyHadoopActivity",
   "schedule": {"ref": "ResourcePeriod"},
   "runsOn": {"ref": “MyEmrCluster”},
   "type": "HadoopActivity",
   "preActivityTaskConfig":{"ref":"preTaskScriptConfig”},   
   "jarUri": "/home/hadoop/contrib/streaming/hadoop-streaming.jar",
   "argument": [
     "-files",
     “s3://elasticmapreduce/samples/wordcount/wordSplitter.py“,
     "-mapper",
     "wordSplitter.py",
     "-reducer",
     "aggregate",
     "-input",
     "s3://elasticmapreduce/samples/wordcount/input/",
     "-output",
     “s3://amzn-s3-demo-bucket/MyHadoopActivity/#{@pipelineId}/#{format(@scheduledStartTime,'YYYY-MM-dd')}"
   ],
   "maximumRetries": "0",
   "postActivityTaskConfig":{"ref":"postTaskScriptConfig”},
   "hadoopQueue" : “high”
 }
```

Hier ist das entsprechende*MyEmrCluster*, das die FairScheduler und -Warteschlangen in YARN für Hadoop 2-basiert konfiguriert: AMIs

```
{
  "id" : "MyEmrCluster",
  "type" : "EmrCluster",
   "hadoopSchedulerType" : "PARALLEL_FAIR_SCHEDULING",
  “amiVersion” : “3.7.0”,
  "bootstrapAction" : ["s3://Region.elasticmapreduce/bootstrap-actions/configure-hadoop,-z,yarn.scheduler.capacity.root.queues=low\,high\,default,-z,yarn.scheduler.capacity.root.high.capacity=50,-z,yarn.scheduler.capacity.root.low.capacity=10,-z,yarn.scheduler.capacity.root.default.capacity=30”]
}
```

Dies ist der, den EmrCluster Sie zur Konfiguration FairScheduler in Hadoop 1 verwenden:

```
{
      "id": "MyEmrCluster",
      "type": "EmrCluster",    
      "hadoopSchedulerType": "PARALLEL_FAIR_SCHEDULING",
      "amiVersion": "2.4.8",
      "bootstrapAction": "s3://Region.elasticmapreduce/bootstrap-actions/configure-hadoop,-m,mapred.queue.names=low\\\\,high\\\\,default,-m,mapred.fairscheduler.poolnameproperty=mapred.job.queue.name"
          }
```

Die folgenden Konfigurationen EmrCluster basieren auf CapacityScheduler Hadoop 2: AMIs

```
{
      "id": "MyEmrCluster",
      "type": "EmrCluster",
      "hadoopSchedulerType": "PARALLEL_CAPACITY_SCHEDULING",
      "amiVersion": "3.7.0",
      "bootstrapAction": "s3://Region.elasticmapreduce/bootstrap-actions/configure-hadoop,-z,yarn.scheduler.capacity.root.queues=low\\\\,high,-z,yarn.scheduler.capacity.root.high.capacity=40,-z,yarn.scheduler.capacity.root.low.capacity=60"
    }
```

**HadoopActivity mit einem vorhandenen EMR-Cluster**  
In diesem Beispiel verwenden Sie workergroups und a, TaskRunner um ein Programm auf einem vorhandenen EMR-Cluster auszuführen. Die folgende Pipeline-Definition dient dazu: HadoopActivity 
+ Führen Sie ein MapReduce Programm nur auf *myWorkerGroup* Ressourcen aus. Weitere Informationen zu Worker-Gruppen finden Sie unter [Arbeiten an vorhandenen Ressourcen mit Task Runner ausführen](dp-how-task-runner-user-managed.md).
+ Führen Sie eine preActivityTask Config und eine postActivityTask Config aus

```
{
  "objects": [
    {
      "argument": [
        "-files",
        "s3://elasticmapreduce/samples/wordcount/wordSplitter.py",
        "-mapper",
        "wordSplitter.py",
        "-reducer",
        "aggregate",
        "-input",
        "s3://elasticmapreduce/samples/wordcount/input/",
        "-output",
        "s3://amzn-s3-demo-bucket/MyHadoopActivity/#{@pipelineId}/#{format(@scheduledStartTime,'YYYY-MM-dd')}"
      ],
      "id": "MyHadoopActivity",
      "jarUri": "/home/hadoop/contrib/streaming/hadoop-streaming.jar",
      "name": "MyHadoopActivity",
      "type": "HadoopActivity"
    },
    {
      "id": "SchedulePeriod",
      "startDateTime": "start_datetime",
      "name": "SchedulePeriod",
      "period": "1 day",
      "type": "Schedule",
      "endDateTime": "end_datetime"
    },
    {
      "id": "ShellScriptConfig",
      "scriptUri": "s3://amzn-s3-demo-bucket/scripts/preTaskScript.sh",
      "name": "preTaskScriptConfig",
      "scriptArgument": [
        "test",
        "argument"
      ],
      "type": "ShellScriptConfig"
    },
    {
      "id": "ShellScriptConfig",
      "scriptUri": "s3://amzn-s3-demo-bucket/scripts/postTaskScript.sh",
      "name": "postTaskScriptConfig",
      "scriptArgument": [
        "test",
        "argument"
      ],
      "type": "ShellScriptConfig"
    },
    {
      "id": "Default",
      "scheduleType": "cron",
      "schedule": {
        "ref": "SchedulePeriod"
      },
      "name": "Default",
      "pipelineLogUri": "s3://amzn-s3-demo-bucket/logs/2015-05-22T18:02:00.343Z642f3fe415",
      "maximumRetries": "0",    
      "workerGroup": "myWorkerGroup",
      "preActivityTaskConfig": {
        "ref": "preTaskScriptConfig"
      },
      "postActivityTaskConfig": {
        "ref": "postTaskScriptConfig"
      }    
    }
  ] 
}
```

## Syntax
<a name="hadoopactivity-syntax"></a>


****  

| Pflichtfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| jarUri | Speicherort einer JAR in Amazon S3 oder im lokalen Dateisystem des Clusters, mit dem ausgeführt werden soll HadoopActivity. | Zeichenfolge | 

 


****  

| Objektaufruf-Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| schedule | Dieses Objekt wird innerhalb der Ausführung eines Zeitplanintervalls aufgerufen. Benutzer müssen einen Zeitplanverweis auf ein anderes Objekt angeben, um die Abhängigkeitsausführungsreihenfolge für dieses Objekt festzulegen. Benutzer können diese Anforderung erfüllen, indem sie explizit einen Zeitplan für das Objekt festlegen, z. B. indem sie „schedule“: \$1"ref“: "DefaultSchedule„\$1 angeben. In den meisten Fällen ist es besser, den Zeitplanverweis auf das Standard-Pipeline-Objekt zu setzen, damit alle Objekte diesen Zeitplan erben. Wenn die Pipeline über einen Baum mit Zeitplänen verfügt (Zeitpläne innerhalb des Hauptplans), können Benutzer ein übergeordnetes Objekt mit Zeitplänenreferenz erstellen. Weitere Informationen zu optionalen Beispiel-Zeitplankonfigurationen finden Sie unter [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html). | Referenzobjekt, z. B. „schedule“: \$1"ref“:“ myScheduleId „\$1 | 

 


****  

| Erforderliche Gruppe (mindestens eine der folgenden ist erforderlich) | Description | Slot-Typ | 
| --- | --- | --- | 
| runsOn | EMR-Cluster, auf dem dieser Auftrag ausgeführt wird. | Referenzobjekt, z. B. „runsOn“: \$1"ref“:“ myEmrCluster Id "\$1 | 
| workerGroup | Die Auftragnehmergruppe. Dies wird für Routing-Aufgaben verwendet. Wenn Sie einen runsOn-Wert angeben und workerGroup vorhanden ist, wird workerGroup ignoriert. | Zeichenfolge | 

 


****  

| Optionale Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| argument | Argumente, die an die JAR-Dateien übergeben werden. | Zeichenfolge | 
| attemptStatus | Zuletzt gemeldeter Status von der Remote-Aktivität. | Zeichenfolge | 
| attemptTimeout | Timeout für die Remote-Arbeit abgeschlossen. Wenn diese Option aktiviert ist, kann eine Remote-Aktivität, die nicht innerhalb der festgelegten Startzeit abgeschlossen wird, wiederholt werden. | Zeitraum | 
| dependsOn | Angeben der Abhängigkeit von einem anderen ausführbaren Objekt. | Referenzobjekt, z. B. „dependSon“: \$1"ref“:“ myActivityId „\$1 | 
| failureAndRerunModus | Beschreibt das Verhalten des Konsumentenknotens, wenn Abhängigkeiten fehlschlagen oder erneut ausgeführt werden | Aufzählung | 
| hadoopQueue | Der Name der Hadoop-Scheduler-Warteschlange, an die die Aktivität übergeben wird. | Zeichenfolge | 
| input | Speicherort der Eingabedaten. | Referenzobjekt, z. B. „input“: \$1"ref“:“ myDataNode Id "\$1 | 
| lateAfterTimeout | Die nach dem Start der Pipeline verstrichene Zeit, innerhalb der das Objekt abgeschlossen werden muss. Sie wird nur ausgelöst, wenn der Zeitplantyp nicht auf eingestellt ist. ondemand | Zeitraum | 
| mainClass | Die Hauptklasse der JAR, mit der Sie die Ausführung ausführen HadoopActivity. | Zeichenfolge | 
| maxActiveInstances | Die maximale Anzahl gleichzeitiger aktiver Instances einer Komponente. Wiederholungen zählen nicht zur Anzahl der aktiven Instances. | Ganzzahl | 
| maximumRetries | Maximale Anzahl von Versuchen bei Ausfällen | Ganzzahl | 
| onFail | Eine Aktion, die ausgeführt werden soll, wenn das aktuelle Objekt fehlschlägt. | Referenzobjekt, z. B. „onFail“: \$1"ref“:“ myActionId „\$1 | 
| onLateAction | Aktionen, die ausgelöst werden sollen, wenn ein Objekt noch nicht geplant oder noch nicht abgeschlossen wurde. | Referenzobjekt, z. B. "onLateAction„: \$1" ref“:“ myActionId „\$1 | 
| onSuccess | Eine Aktion, die ausgeführt wird, wenn das aktuelle Objekt erfolgreich ist. | Referenzobjekt, z. B. „onSuccess“: \$1"ref“:“ myActionId „\$1 | 
| output | Speicherort der Ausgabedaten. | Referenzobjekt, z. B. „output“: \$1"ref“:“ myDataNode Id "\$1 | 
| übergeordneter | Übergeordnetes Objekt des aktuellen Objekts, aus dem Slots übernommen werden. | Referenzobjekt, z. B. „parent“: \$1"ref“:“ myBaseObject Id "\$1 | 
| pipelineLogUri | Die S3-URI (wie 's3://BucketName/Key/ ') zum Hochladen von Protokollen für die Pipeline. | Zeichenfolge | 
| postActivityTaskConfig | Post-Activity-Konfigurationsskript, das ausgeführt werden soll. Dieses besteht aus einer URI des Shell-Skripts in Amazon S3 und einer Liste von Argumenten. | Referenzobjekt, z. B. "postActivityTaskConfig“: \$1"ref“:“ myShellScript ConfigId „\$1 | 
| preActivityTaskConfig | Pre-Activity-Konfigurationsskript, das ausgeführt werden soll. Dieses besteht aus einer URI des Shell-Skripts in Amazon S3 und einer Liste von Argumenten. | Referenzobjekt, z. B. "preActivityTaskConfig“: \$1"ref“:“ myShellScript ConfigId „\$1 | 
| precondition | Legen Sie optional eine Vorbedingung fest. Ein Datenknoten ist solange nicht als "BEREIT" markiert, bis alle Vorbedingungen erfüllt sind. | Referenzobjekt, z. B. „Vorbedingung“: \$1"ref“:“ myPreconditionId „\$1 | 
| reportProgressTimeout | Timeout für aufeinanderfolgende Aufrufe von Remote-Arbeit in reportProgress. Wenn diese Option aktiviert ist, werden Remote-Aktivitäten, die den Fortschritt für den angegebenen Zeitraum nicht melden, als fehlgeschlagen angesehen und es wird erneut versucht. | Zeitraum | 
| retryDelay | Die Zeitüberschreitungsdauer zwischen zwei Wiederholungsversuchen. | Zeitraum | 
| scheduleType | Mit dem Zeitplantyp können Sie angeben, ob die Objekte in Ihrer Pipeline-Definition am Anfang des Intervalls oder am Ende des Intervalls geplant werden sollen. Zeitreihenstilplanung bedeutet, dass Instances am Ende jedes Intervalls geplant werden und Cron-Stil-Planung bedeutet, dass Instances zu Beginn jedes Intervalls geplant werden. Ein On-Demand-Zeitplan ermöglicht es Ihnen, eine Pipeline einmal pro Aktivierung auszuführen. Dies bedeutet, dass Sie die Pipeline nicht klonen oder neu erstellen müssen, um sie erneut auszuführen. Wenn Sie einen On-Demand-Zeitplan verwenden, muss er im Standardobjekt angegeben werden und der einzige für die Objekte in der Pipeline angegebene scheduleType sein. Um On-Demand-Pipelines zu verwenden, rufen Sie den ActivatePipeline Vorgang einfach für jeden nachfolgenden Lauf auf. Die Werte sind: cron, ondemand und timeseries. | Aufzählung | 

 


****  

| Laufzeitfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @activeInstances | Liste der aktuell geplanten aktiven Instance-Objekte. | Referenzobjekt, z. B. „ActiveInstances“: \$1"ref“:“ myRunnableObject Id "\$1 | 
| @actualEndTime | Zeitpunkt, zu dem die Ausführung dieses Objekts abgeschlossen wurde. | DateTime | 
| @actualStartTime | Zeitpunkt, zu dem die Ausführung dieses Objekts gestartet wurde. | DateTime | 
| cancellationReason | Die cancellationReason, wenn dieses Objekt storniert wurde. | Zeichenfolge | 
| @cascadeFailedOn | Beschreibung der Abhängigkeitskette, bei der das Objekt fehlgeschlagen ist. | Referenzobjekt, z. B. "cascadeFailedOn„: \$1" ref“:“ myRunnableObject Id "\$1 | 
| emrStepLog | EMR-Schrittprotokolle nur bei EMR-Aktivitätsversuchen verfügbar | Zeichenfolge | 
| errorId | Die errorId, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorMessage | Die errorMessage, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorStackTrace | Die Fehler-Stack-Ablaufverfolgung., wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| @finishedTime | Der Zeitpunkt, zu der dieses Objekt seine Ausführung beendet hat. | DateTime | 
| hadoopJobLog | Hadoop-Jobprotokolle für Versuche für EMR-basierte Aktivitäten verfügbar. | Zeichenfolge | 
| @healthStatus | Der Integritätsstatus des Objekts, der Erfolg oder Misserfolg der letzten Objekt-Instance widerspiegelt, die einen beendeten Zustand erreicht hat. | Zeichenfolge | 
| @healthStatusFromInstanceId | Id des Objekts der letzten Instance, das einen beendeten Zustand erreicht hat. | Zeichenfolge | 
| @ healthStatusUpdated Zeit | Zeitpunkt, zu dem der Servicestatus beim letzten Mal aktualisiert wurde. | DateTime | 
| hostname | Der Hostname des Clients, der den Aufgabenversuch aufnimmt. | Zeichenfolge | 
| @lastDeactivatedTime | Zeitpunkt, zu dem dieses Objekt zuletzt deaktiviert wurde. | DateTime | 
| @ latestCompletedRun Zeit | Zeitpunkt des letzten Laufs, für den die Ausführung abgeschlossen wurde. | DateTime | 
| @latestRunTime | Zeitpunkt des letzten Laufs, für den die Ausführung geplant war. | DateTime | 
| @nextRunTime | Zeitpunkt des Laufs, der als nächstes geplant werden soll | DateTime | 
| reportProgressTime | Der letzte Zeitpunkt, an dem die Remote-Aktivität einen Fortschritt gemeldet hat. | DateTime | 
| @scheduledEndTime | Endzeit für Objekt einplanen | DateTime | 
| @scheduledStartTime | Startzeit für Objekt einplanen | DateTime | 
| @Status | Der Status des Objekts. | Zeichenfolge | 
| @Version | Pipeline-Version, mit der das Objekt erstellt wurde. | Zeichenfolge | 
| @waitingOn | Beschreibung der Liste der Abhängigkeiten, auf die dieses Objekt wartet. | Referenzobjekt, z. B. „waitingOn“: \$1"ref“:“ myRunnableObject Id "\$1 | 

 


****  

| Systemfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @error | Fehler mit einer Beschreibung des falsch formatierten Objekts. | Zeichenfolge | 
| @pipelineId | Id der Pipeline, zu der dieses Objekt gehört. | Zeichenfolge | 
| @sphere | Die Kugel eines Objekts bezeichnet seinen Platz im Lebenszyklus: Komponentenobjekte ergeben Instance-Objekte, die Versuchsobjekte ausführen. | Zeichenfolge | 

## Weitere Informationen finden Sie unter:
<a name="hadoopactivity-seealso"></a>
+ [ShellCommandActivity](dp-object-shellcommandactivity.md)
+ [CopyActivity](dp-object-copyactivity.md)
+ [EmrCluster](dp-object-emrcluster.md)

# HiveActivity
<a name="dp-object-hiveactivity"></a>

Führt eine Hive-Abfrage auf einem EMR-Cluster aus. `HiveActivity`erleichtert die Einrichtung einer Amazon EMR-Aktivität und erstellt automatisch Hive-Tabellen auf der Grundlage von Eingabedaten, die entweder von Amazon S3 oder Amazon RDS stammen. Sie müssen lediglich den HiveQL angeben, der auf den Quelldaten ausgeführt werden soll. AWS Data Pipeline erstellt automatisch Hive-Tabellen mit `${input1}``${input2}`, usw. auf der Grundlage der Eingabefelder im Objekt. `HiveActivity` 

Für Amazon S3 S3-Eingaben wird das `dataFormat` Feld verwendet, um die Hive-Spaltennamen zu erstellen. 

Bei MySQL-Eingaben (Amazon RDS) werden die Spaltennamen für die SQL-Abfrage verwendet, um die Hive-Spaltennamen zu erstellen.

**Anmerkung**  
Diese Aktivität verwendet den [CSV-Serde](https://cwiki.apache.org/confluence/display/Hive/CSV+Serde) von Hive.

## Beispiel
<a name="hiveactivity-example"></a>

Es folgt ein Beispiel für diesen Objekttyp. Dieses Objekt verweist auf drei andere Objekte, die Sie in derselben Pipeline-Definitionsdatei definieren. `MySchedule` ist ein `Schedule`-Objekt und `MyS3Input` und `MyS3Output` sind Datenknotenobjekte.

```
{
  "name" : "ProcessLogData",
  "id" : "MyHiveActivity",
  "type" : "HiveActivity",
  "schedule" : { "ref": "MySchedule" },
  "hiveScript" : "INSERT OVERWRITE TABLE ${output1} select host,user,time,request,status,size from ${input1};",
  "input" : { "ref": "MyS3Input" },
  "output" : { "ref": "MyS3Output" },
  "runsOn" : { "ref": "MyEmrCluster" }
}
```

## Syntax
<a name="hiveactivity-syntax"></a>


****  

| Objektaufruf-Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| schedule | Dieses Objekt wird innerhalb der Ausführung eines Zeitplanintervalls aufgerufen. Sie müssen einen Zeitplanverweis auf ein anderes Objekt angeben, um die Abhängigkeitsausführungsreihenfolge für dieses Objekt festzulegen. Sie können diese Anforderung erfüllen, indem Sie explizit einen Zeitplan für das Objekt festlegen, indem Sie beispielsweise „schedule“: \$1"ref“: "DefaultSchedule„\$1 angeben. In den meisten Fällen ist es besser, den Zeitplanverweis auf das Standard-Pipeline-Objekt zu setzen, damit alle Objekte diesen Zeitplan erben. Wenn die Pipeline über einen Baum mit Zeitplänen verfügt (Zeitpläne innerhalb des Hauptplans), können Sie ein übergeordnetes Objekt mit Zeitplänenreferenz erstellen. Weitere Informationen zu optionalen Beispiel-Zeitplankonfigurationen finden Sie unter [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html). | Referenzobjekt, z. B. „schedule“: \$1"ref“:“ myScheduleId „\$1 | 

 


****  

| Erforderliche Gruppe (mindestens eine der folgenden ist erforderlich) | Description | Slot-Typ | 
| --- | --- | --- | 
| hiveScript | Das auszuführende Hive-Skript. | Zeichenfolge | 
| scriptUri | Der Speicherort des auszuführenden Hive-Skripts (z. B. s3://scriptLocation). | Zeichenfolge | 

 


****  

| Erforderliche Gruppe | Description | Slot-Typ | 
| --- | --- | --- | 
| runsOn | Der EMR-Cluster, auf dem diese HiveActivity ausgeführt wird | Referenzobjekt, z. B. „runsOn“: \$1"ref“:“ myEmrCluster Id "\$1 | 
| workerGroup | Die Auftragnehmergruppe. Dies wird für Routing-Aufgaben verwendet. Wenn Sie einen runsOn-Wert angeben und workerGroup vorhanden ist, wird ignoriert.workerGroup | Zeichenfolge | 
| input | Die Eingangsdatenquelle. | Referenzobjekt, z. B. „input“: \$1"ref“:“ myDataNode Id "\$1 | 
| output | Die Eingangsdatenquelle. | Referenzobjekt, z. B. „output“: \$1"ref“:“ myDataNode Id "\$1 | 

 


****  

| Optionale Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| attemptStatus | Zuletzt gemeldeter Status von der Remote-Aktivität. | Zeichenfolge | 
| attemptTimeout | Timeout für die Remote-Arbeit abgeschlossen. Wenn diese Option aktiviert ist, kann eine Remote-Aktivität, die nicht innerhalb der festgelegten Startzeit abgeschlossen wird, wiederholt werden. | Zeitraum | 
| dependsOn | Angeben der Abhängigkeit von einem anderen ausführbaren Objekt. | Referenzobjekt, z. B. „dependSon“: \$1"ref“:“ myActivityId „\$1 | 
| failureAndRerunModus | Beschreibt das Verhalten des Konsumentenknotens, wenn Abhängigkeiten fehlschlagen oder erneut ausgeführt werden. | Aufzählung | 
| hadoopQueue | Der Name der Hadoop-Scheduler-Warteschlange, in der der Auftrag übermittelt wird. | Zeichenfolge | 
| lateAfterTimeout | Die nach dem Start der Pipeline verstrichene Zeit, innerhalb der das Objekt abgeschlossen werden muss. Sie wird nur ausgelöst, wenn der Zeitplantyp nicht auf eingestellt ist. ondemand | Zeitraum | 
| maxActiveInstances | Die maximale Anzahl gleichzeitiger aktiver Instances einer Komponente. Wiederholungen zählen nicht zur Anzahl der aktiven Instances. | Ganzzahl | 
| maximumRetries | Die maximale Anzahl von Versuchen bei Ausfällen. | Ganzzahl | 
| onFail | Eine Aktion, die ausgeführt werden soll, wenn das aktuelle Objekt fehlschlägt. | Referenzobjekt, z. B. „onFail“: \$1"ref“:“ myActionId „\$1 | 
| onLateAction | Aktionen, die ausgelöst werden sollen, wenn ein Objekt noch nicht geplant oder noch nicht abgeschlossen wurde. | Referenzobjekt, z. B. "onLateAction„: \$1" ref“:“ myActionId „\$1 | 
| onSuccess | Eine Aktion, die ausgeführt wird, wenn das aktuelle Objekt erfolgreich ist. | Referenzobjekt, z. B. „onSuccess“: \$1"ref“:“ myActionId „\$1 | 
| übergeordneter | Übergeordnetes Objekt des aktuellen Objekts, aus dem Slots übernommen werden. | Referenzobjekt, z. B. „parent“: \$1"ref“:“ myBaseObject Id "\$1 | 
| pipelineLogUri | Die S3-URI (z. B. 's3://BucketName/Key/ ') zum Hochladen von Protokollen für die Pipeline. | Zeichenfolge | 
| postActivityTaskConfig | Post-Activity-Konfigurationsskript, das ausgeführt werden soll. Dieses besteht aus einer URI des Shell-Skripts in Amazon S3 und einer Liste von Argumenten. | Referenzobjekt, z. B. "postActivityTaskConfig“: \$1"ref“:“ myShellScript ConfigId „\$1 | 
| preActivityTaskConfig | Pre-Activity-Konfigurationsskript, das ausgeführt werden soll. Dieses besteht aus einer URI des Shell-Skripts in Amazon S3 und einer Liste von Argumenten. | Referenzobjekt, z. B. "preActivityTaskConfig“: \$1"ref“:“ myShellScript ConfigId „\$1 | 
| precondition | Legen Sie optional eine Vorbedingung fest. Ein Datenknoten ist solange nicht als "BEREIT" markiert, bis alle Vorbedingungen erfüllt sind. | Referenzobjekt, z. B. „Vorbedingung“: \$1"ref“:“ myPreconditionId „\$1 | 
| reportProgressTimeout | Timeout für aufeinanderfolgende Aufrufe von Remote-Arbeit in reportProgress. Wenn diese Option aktiviert ist, werden Remote-Aktivitäten, die den Fortschritt für den angegebenen Zeitraum nicht melden, als fehlgeschlagen angesehen und es wird erneut versucht. | Zeitraum | 
| resizeClusterBeforeWird ausgeführt | Ändern Sie die Größe des Clusters, bevor Sie diese Aktivität ausführen, um DynamoDB-Datenknoten aufzunehmen, die als Eingaben oder Ausgaben angegeben sind.  Wenn Ihre Aktivität a entweder `DynamoDBDataNode` als Eingabe- oder Ausgabedatenknoten verwendet und Sie den Wert auf setzen`TRUE`, AWS Data Pipeline beginnt die `resizeClusterBeforeRunning` Verwendung von `m3.xlarge` Instance-Typen. Dadurch wird Ihre Auswahl an Instance-Typen mit `m3.xlarge` überschrieben, wodurch Ihre monatlichen Kosten ansteigen könnten.  | Boolesch | 
| resizeClusterMaxInstanzen | Ein Limit für die maximale Anzahl von Instances, die vom Resize-Algorithmus angefordert werden können. | Ganzzahl | 
| retryDelay | Die Zeitüberschreitungsdauer zwischen zwei Wiederholungsversuchen. | Zeitraum | 
| scheduleType | Mit dem Zeitplantyp können Sie angeben, ob die Objekte in Ihrer Pipeline-Definition am Anfang des Intervalls oder am Ende des Intervalls geplant werden sollen. Zeitreihenstilplanung bedeutet, dass Instances am Ende jedes Intervalls geplant werden und Cron-Stil-Planung bedeutet, dass Instances zu Beginn jedes Intervalls geplant werden. Ein On-Demand-Zeitplan ermöglicht es Ihnen, eine Pipeline einmal pro Aktivierung auszuführen. Dies bedeutet, dass Sie die Pipeline nicht klonen oder neu erstellen müssen, um sie erneut auszuführen. Wenn Sie einen On-Demand-Zeitplan verwenden, muss er im Standardobjekt angegeben werden und der einzige für die Objekte in der Pipeline angegebene scheduleType sein. Um On-Demand-Pipelines zu verwenden, rufen Sie den ActivatePipeline Vorgang einfach für jeden nachfolgenden Lauf auf. Die Werte sind: cron, ondemand und timeseries. | Aufzählung | 
| scriptVariable | Gibt Skriptvariablen an, die Amazon EMR bei der Ausführung eines Skripts an Hive weitergibt. Im folgenden Beispiel etwa würden Skriptvariablen eine SAMPLE- und FILTER\$1DATE-Variable an Hive übergeben: SAMPLE=s3://elasticmapreduce/samples/hive-ads und  FILTER\$1DATE=\$1\$1format(@scheduledStartTime,'YYYY-MM-dd')\$1%. Dieses Feld akzeptiert mehrere Werte und funktioniert sowohl mit script- als auch mit scriptUri-Feldern. Darüber hinaus funktioniert scriptVariable unabhängig davon, ob "stage" auf true oder false festgelegt ist. Dieses Feld ist besonders nützlich, um mithilfe von AWS Data Pipeline -Ausdrücken und -Funktionen dynamische Werte an Hive zu senden. | Zeichenfolge | 
| stage | Legt fest, ob vor oder nach dem Ausführen des Skripts Staging aktiviert wird. Ist mit Hive 11 unzulässig. Verwenden Sie daher eine Amazon EMR-AMI in der Version 3.2.0 oder höher. | Boolesch | 

 


****  

| Laufzeitfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @activeInstances | Liste der aktuell geplanten aktiven Instance-Objekte. | Referenzobjekt, z. B. „ActiveInstances“: \$1"ref“:“ Id "\$1 myRunnableObject | 
| @actualEndTime | Zeitpunkt, zu dem die Ausführung dieses Objekts abgeschlossen wurde. | DateTime | 
| @actualStartTime | Zeitpunkt, zu dem die Ausführung dieses Objekts gestartet wurde. | DateTime | 
| cancellationReason | Die cancellationReason, wenn dieses Objekt storniert wurde. | Zeichenfolge | 
| @cascadeFailedOn | Beschreibung der Abhängigkeitskette, bei der das Objekt fehlgeschlagen ist. | Referenzobjekt, z. B. "cascadeFailedOn„: \$1" ref“:“ myRunnableObject Id "\$1 | 
| emrStepLog | Amazon EMR-Schrittprotokolle sind nur bei EMR-Aktivitätsversuchen verfügbar. | Zeichenfolge | 
| errorId | Die errorId, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorMessage | Die errorMessage, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorStackTrace | Die Fehler-Stack-Ablaufverfolgung., wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| @finishedTime | Der Zeitpunkt, zu der dieses Objekt seine Ausführung beendet hat. | DateTime | 
| hadoopJobLog | Hadoop-Jobprotokolle für Versuche für EMR-basierte Aktivitäten verfügbar. | Zeichenfolge | 
| @healthStatus | Der Integritätsstatus des Objekts, der Erfolg oder Misserfolg der letzten Objekt-Instance widerspiegelt, die einen beendeten Zustand erreicht hat. | Zeichenfolge | 
| @healthStatusFromInstanceId | Id des Objekts der letzten Instance, das einen beendeten Zustand erreicht hat. | Zeichenfolge | 
| @ Zeit healthStatusUpdated | Zeitpunkt, zu dem der Servicestatus beim letzten Mal aktualisiert wurde. | DateTime | 
| hostname | Der Hostname des Clients, der den Aufgabenversuch aufnimmt. | Zeichenfolge | 
| @lastDeactivatedTime | Zeitpunkt, zu dem dieses Objekt zuletzt deaktiviert wurde. | DateTime | 
| @ latestCompletedRun Zeit | Zeitpunkt des letzten Laufs, für den die Ausführung abgeschlossen wurde. | DateTime | 
| @latestRunTime | Zeitpunkt des letzten Laufs, für den die Ausführung geplant war. | DateTime | 
| @nextRunTime | Zeitpunkt des Laufs, der als nächstes geplant werden soll | DateTime | 
| reportProgressTime | Der letzte Zeitpunkt, an dem die Remote-Aktivität einen Fortschritt gemeldet hat. | DateTime | 
| @scheduledEndTime | Endzeit für ein Objekt einplanen | DateTime | 
| @scheduledStartTime | Startzeit für ein Objekt einplanen | DateTime | 
| @Status | Der Status des Objekts. | Zeichenfolge | 
| @Version | Pipeline-Version, mit der das Objekt erstellt wurde. | Zeichenfolge | 
| @waitingOn | Beschreibung der Liste der Abhängigkeiten, auf die dieses Objekt wartet. | Referenzobjekt, z. B. „WaitingOn“: \$1"ref“:“ myRunnableObject Id "\$1 | 

 


****  

| Systemfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @error | Fehler mit einer Beschreibung des falsch formatierten Objekts. | Zeichenfolge | 
| @pipelineId | ID der Pipeline, zu der dieses Objekt gehört | Zeichenfolge | 
| @sphere | Die Kugel eines Objekts bezeichnet seinen Platz im Lebenszyklus: Komponentenobjekte ergeben Instance-Objekte, die Versuchsobjekte ausführen. | Zeichenfolge | 

## Weitere Informationen finden Sie unter:
<a name="hiveactivity-seealso"></a>
+ [ShellCommandActivity](dp-object-shellcommandactivity.md)
+ [EmrActivity](dp-object-emractivity.md)

# HiveCopyActivity
<a name="dp-object-hivecopyactivity"></a>

Führt eine Hive-Abfrage auf einem EMR-Cluster aus. `HiveCopyActivity`erleichtert das Kopieren von Daten zwischen DynamoDB-Tabellen. `HiveCopyActivity`akzeptiert eine HiveQL-Anweisung zum Filtern von Eingabedaten aus DynamoDB auf Spalten- und Zeilenebene.

## Beispiel
<a name="hivecopyactivity-example"></a>

Das folgende Beispiel zeigt, wie Sie mit `HiveCopyActivity` und `DynamoDBExportDataFormat` Daten von einem `DynamoDBDataNode` auf einen anderen kopieren können, während gleichzeitig Daten basierend auf einem Zeitstempel gefiltert werden.

```
{
  "objects": [
    {
      "id" : "DataFormat.1",
      "name" : "DataFormat.1",
      "type" : "DynamoDBExportDataFormat",
      "column" : "timeStamp BIGINT"
    },
    {
      "id" : "DataFormat.2",
      "name" : "DataFormat.2",
      "type" : "DynamoDBExportDataFormat"
    },
    {
      "id" : "DynamoDBDataNode.1",
      "name" : "DynamoDBDataNode.1",
      "type" : "DynamoDBDataNode",
      "tableName" : "item_mapped_table_restore_temp",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.1" }
    },
    {
      "id" : "DynamoDBDataNode.2",
      "name" : "DynamoDBDataNode.2",
      "type" : "DynamoDBDataNode",
      "tableName" : "restore_table",
      "region" : "us_west_1",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.2" }
    },
    {
      "id" : "EmrCluster.1",
      "name" : "EmrCluster.1",
      "type" : "EmrCluster",
      "schedule" : { "ref" : "ResourcePeriod" },
      "masterInstanceType" : "m1.xlarge",
      "coreInstanceCount" : "4"
    },
    {
      "id" : "HiveTransform.1",
      "name" : "Hive Copy Transform.1",
      "type" : "HiveCopyActivity",
      "input" : { "ref" : "DynamoDBDataNode.1" },
      "output" : { "ref" : "DynamoDBDataNode.2" },
      "schedule" :{ "ref" : "ResourcePeriod" },
      "runsOn" : { "ref" : "EmrCluster.1" },
      "filterSql" : "`timeStamp` > unix_timestamp(\"#{@scheduledStartTime}\", \"yyyy-MM-dd'T'HH:mm:ss\")"
    },
    {
      "id" : "ResourcePeriod",
      "name" : "ResourcePeriod",
      "type" : "Schedule",
      "period" : "1 Hour",
      "startDateTime" : "2013-06-04T00:00:00",
      "endDateTime" : "2013-06-04T01:00:00"
    }
  ]
}
```

## Syntax
<a name="hivecopyactivity-syntax"></a>


****  

| Objektaufruf-Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| schedule | Dieses Objekt wird innerhalb der Ausführung eines Zeitplanintervalls aufgerufen. Benutzer müssen einen Zeitplanverweis auf ein anderes Objekt angeben, um die Abhängigkeitsausführungsreihenfolge für dieses Objekt festzulegen. Benutzer können diese Anforderung erfüllen, indem sie explizit einen Zeitplan für das Objekt festlegen, indem sie beispielsweise „schedule“: \$1"ref“: "„\$1 angeben. DefaultSchedule In den meisten Fällen ist es besser, den Zeitplanverweis auf das Standard-Pipeline-Objekt zu setzen, damit alle Objekte diesen Zeitplan erben. Wenn die Pipeline über einen Baum mit Zeitplänen verfügt (Zeitpläne innerhalb des Hauptplans), können Benutzer ein übergeordnetes Objekt mit Zeitplänenreferenz erstellen. Weitere Informationen zu optionalen Beispiel-Zeitplankonfigurationen finden Sie unter [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html). | Referenzobjekt, z. B. „schedule“: \$1"ref“:“ myScheduleId „\$1 | 

 


****  

| Erforderliche Gruppe (mindestens eine der folgenden ist erforderlich) | Description | Slot-Typ | 
| --- | --- | --- | 
| runsOn | Geben Sie den Cluster an, auf dem ausgeführt werden soll. | Referenzobjekt, z. B. „runsOn“: \$1"ref“:“ myResourceId „\$1 | 
| workerGroup | Die Auftragnehmergruppe. Dies wird für Routing-Aufgaben verwendet. Wenn Sie einen runsOn-Wert angeben und workerGroup vorhanden ist, wird ignoriert.workerGroup | Zeichenfolge | 

 


****  

| Optionale Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| attemptStatus | Der zuletzt gemeldete Status von der Remote-Aktivität. | Zeichenfolge | 
| attemptTimeout | Das Timeout für die Fertigstellung der Remote-Arbeit. Wenn diese Option aktiviert ist, kann eine Remote-Aktivität, die nicht innerhalb der festgelegten Startzeit abgeschlossen wird, wiederholt werden. | Zeitraum | 
| dependsOn | Gibt die Abhängigkeit von einem anderen ausführbaren Objekt an. | Referenzobjekt, z. B. „dependSon“: \$1"ref“:“ myActivityId „\$1 | 
| failureAndRerunModus | Beschreibt das Verhalten des Konsumentenknotens, wenn Abhängigkeiten fehlschlagen oder erneut ausgeführt werden. | Aufzählung | 
| filterSql | Ein Hive-SQL-Anweisungsfragment, das eine Teilmenge der zu kopierenden DynamoDB- oder Amazon S3 S3-Daten filtert. Der Filter sollte nur Prädikate enthalten und nicht mit einer WHERE Klausel beginnen, da er automatisch hinzugefügt wird. AWS Data Pipeline  | Zeichenfolge | 
| input | Die Eingangsdatenquelle. Dies muss ein S3DataNode oder DynamoDBDataNode sein. Wenn Sie DynamoDBNode verwenden, geben Sie ein DynamoDBExportDataFormat an. | Referenzobjekt, z. B. „input“: \$1"ref“:“ myDataNode Id "\$1 | 
| lateAfterTimeout | Die nach dem Start der Pipeline verstrichene Zeit, innerhalb der das Objekt abgeschlossen werden muss. Sie wird nur ausgelöst, wenn der Zeitplantyp nicht auf eingestellt ist. ondemand | Zeitraum | 
| maxActiveInstances | Die maximale Anzahl gleichzeitiger aktiver Instances einer Komponente. Wiederholungen zählen nicht zur Anzahl der aktiven Instances. | Ganzzahl | 
| maximumRetries | Die maximale Anzahl von Versuchen bei Ausfällen. | Ganzzahl | 
| onFail | Eine Aktion, die ausgeführt werden soll, wenn das aktuelle Objekt fehlschlägt. | Referenzobjekt, z. B. „onFail“: \$1"ref“:“ myActionId „\$1 | 
| onLateAction | Aktionen, die ausgelöst werden sollen, wenn ein Objekt noch nicht geplant oder noch nicht abgeschlossen wurde. | Referenzobjekt, z. B. "onLateAction„: \$1" ref“:“ myActionId „\$1 | 
| onSuccess | Eine Aktion, die ausgeführt wird, wenn das aktuelle Objekt erfolgreich ist. | Referenzobjekt, z. B. „onSuccess“: \$1"ref“:“ myActionId „\$1 | 
| output | Die Eingangsdatenquelle. Wenn die Eingabe S3DataNode ist, muss diese auf DynamoDBDataNode festgelegt sein. Andernfalls kann dies S3DataNode oder DynamoDBDataNode sein. Wenn Sie DynamoDBNode verwenden, geben Sie ein DynamoDBExportDataFormat an. | Referenzobjekt, z. B. „output“: \$1"ref“:“ myDataNode Id "\$1 | 
| übergeordneter | Das übergeordnetes Objekt des aktuellen Objekts, aus dem Slots übernommen werden. | Referenzobjekt, z. B. „parent“: \$1"ref“:“ myBaseObject Id "\$1 | 
| pipelineLogUri | Die Amazon S3 S3-URI, z. B.  's3://BucketName/Key/' für das Hochladen von Protokollen für die Pipeline. | Zeichenfolge | 
| postActivityTaskConfig | Das Post-Activity-Konfigurationsskript, das ausgeführt werden soll. Dieses besteht aus einer URI des Shell-Skripts in Amazon S3 und einer Liste von Argumenten. | Referenzobjekt, z. B. "postActivityTaskConfig“: \$1"ref“:“ myShellScript ConfigId „\$1 | 
| preActivityTaskConfig | Das Pre-Activity-Konfigurationsskript, das ausgeführt werden soll. Dieses besteht aus einer URI des Shell-Skripts in Amazon S3 und einer Liste von Argumenten. | Referenzobjekt, z. B. "preActivityTaskConfig“: \$1"ref“:“ myShellScript ConfigId „\$1 | 
| precondition | Definiert optional eine Vorbedingung. Ein Datenknoten ist solange nicht als "BEREIT" markiert, bis alle Vorbedingungen erfüllt sind. | Referenzobjekt, z. B. „Vorbedingung“: \$1"ref“:“ myPreconditionId „\$1 | 
| reportProgressTimeout | Das Timeout für aufeinanderfolgende Aufrufe von reportProgress durch Remote-Arbeit. Wenn diese Option aktiviert ist, werden Remote-Aktivitäten, die den Fortschritt für den angegebenen Zeitraum nicht melden, als fehlgeschlagen angesehen und es wird erneut versucht. | Zeitraum | 
| resizeClusterBeforeWird ausgeführt | Ändern Sie die Größe des Clusters, bevor Sie diese Aktivität ausführen, um DynamoDB-Datenknoten aufzunehmen, die als Eingaben oder Ausgaben angegeben sind.  Wenn Ihre Aktivität a entweder `DynamoDBDataNode` als Eingabe- oder Ausgabedatenknoten verwendet und Sie den Wert auf setzen`TRUE`, AWS Data Pipeline beginnt die `resizeClusterBeforeRunning` Verwendung von `m3.xlarge` Instance-Typen. Dadurch wird Ihre Auswahl an Instance-Typen mit `m3.xlarge` überschrieben, wodurch Ihre monatlichen Kosten ansteigen könnten.  | Boolesch | 
| resizeClusterMaxInstanzen | Ein Limit für die maximale Anzahl von Instances, die vom Resize-Algorithmus angefordert werden können. | Ganzzahl | 
| retryDelay | Die Zeitüberschreitungsdauer zwischen zwei Wiederholungsversuchen. | Zeitraum | 
| scheduleType | Mit dem Zeitplantyp können Sie angeben, ob die Objekte in Ihrer Pipeline-Definition am Anfang des Intervalls oder am Ende des Intervalls geplant werden sollen. Zeitreihenstilplanung bedeutet, dass Instances am Ende jedes Intervalls geplant werden und Cron-Stil-Planung bedeutet, dass Instances zu Beginn jedes Intervalls geplant werden. Ein On-Demand-Zeitplan ermöglicht es Ihnen, eine Pipeline einmal pro Aktivierung auszuführen. Dies bedeutet, dass Sie die Pipeline nicht klonen oder neu erstellen müssen, um sie erneut auszuführen. Wenn Sie einen On-Demand-Zeitplan verwenden, muss er im Standardobjekt angegeben werden und der einzige für die Objekte in der Pipeline angegebene scheduleType sein. Um On-Demand-Pipelines zu verwenden, rufen Sie den ActivatePipeline Vorgang einfach für jeden nachfolgenden Lauf auf. Die Werte sind: cron, ondemand und timeseries. | Aufzählung | 

 


****  

| Laufzeitfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @activeInstances | Liste der aktuell geplanten aktiven Instance-Objekte. | Referenzobjekt, z. B. „ActiveInstances“: \$1"ref“:“ myRunnableObject Id "\$1 | 
| @actualEndTime | Zeitpunkt, zu dem die Ausführung dieses Objekts abgeschlossen wurde. | DateTime | 
| @actualStartTime | Zeitpunkt, zu dem die Ausführung dieses Objekts gestartet wurde. | DateTime | 
| cancellationReason | Die cancellationReason, wenn dieses Objekt storniert wurde. | Zeichenfolge | 
| @cascadeFailedOn | Beschreibung der Abhängigkeitskette, bei der das Objekt fehlgeschlagen ist. | Referenzobjekt, z. B. "cascadeFailedOn„: \$1" ref“:“ myRunnableObject Id "\$1 | 
| emrStepLog | Amazon EMR-Schrittprotokolle sind nur bei EMR-Aktivitätsversuchen verfügbar. | Zeichenfolge | 
| errorId | Die errorId, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorMessage | Die errorMessage, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorStackTrace | Die Fehler-Stack-Ablaufverfolgung., wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| @finishedTime | Der Zeitpunkt, zu der dieses Objekt seine Ausführung beendet hat. | DateTime | 
| hadoopJobLog | Hadoop-Jobprotokolle für Versuche für EMR-basierte Aktivitäten verfügbar. | Zeichenfolge | 
| @healthStatus | Der Integritätsstatus des Objekts, der Erfolg oder Misserfolg der letzten Objekt-Instance widerspiegelt, die einen beendeten Zustand erreicht hat. | Zeichenfolge | 
| @healthStatusFromInstanceId | Id des Objekts der letzten Instance, das einen beendeten Zustand erreicht hat. | Zeichenfolge | 
| @ Zeit healthStatusUpdated | Zeitpunkt, zu dem der Servicestatus beim letzten Mal aktualisiert wurde. | DateTime | 
| hostname | Der Hostname des Clients, der den Aufgabenversuch aufnimmt. | Zeichenfolge | 
| @lastDeactivatedTime | Zeitpunkt, zu dem dieses Objekt zuletzt deaktiviert wurde. | DateTime | 
| @ latestCompletedRun Zeit | Zeitpunkt des letzten Laufs, für den die Ausführung abgeschlossen wurde. | DateTime | 
| @latestRunTime | Zeitpunkt des letzten Laufs, für den die Ausführung geplant war. | DateTime | 
| @nextRunTime | Zeitpunkt des Laufs, der als nächstes geplant werden soll | DateTime | 
| reportProgressTime | Der letzte Zeitpunkt, an dem die Remote-Aktivität einen Fortschritt gemeldet hat. | DateTime | 
| @scheduledEndTime | Endzeit für Objekt einplanen. | DateTime | 
| @scheduledStartTime | Startzeit für Objekt einplanen. | DateTime | 
| @Status | Der Status des Objekts. | Zeichenfolge | 
| @Version | Pipeline-Version, mit der das Objekt erstellt wurde. | Zeichenfolge | 
| @waitingOn | Beschreibung der Liste der Abhängigkeiten, auf die dieses Objekt wartet. | Referenzobjekt, z. B. „waitingOn“: \$1"ref“:“ myRunnableObject Id "\$1 | 

 


****  

| Systemfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @error | Fehler mit einer Beschreibung des falsch formatierten Objekts. | Zeichenfolge | 
| @pipelineId | Id der Pipeline, zu der dieses Objekt gehört. | Zeichenfolge | 
| @sphere | Die Sphäre eines Objekts bezeichnet seine Position im Lebenszyklus: Komponentenobjekte ergeben Instance-Objekte, die ein Versuchsobjekt ausführen. | Zeichenfolge | 

## Weitere Informationen finden Sie unter:
<a name="hivecopyactivity-seealso"></a>
+ [ShellCommandActivity](dp-object-shellcommandactivity.md)
+ [EmrActivity](dp-object-emractivity.md)

# PigActivity
<a name="dp-object-pigactivity"></a>

PigActivity bietet native Unterstützung für Pig-Skripte, AWS Data Pipeline ohne dass die Verwendung von `ShellCommandActivity` oder erforderlich ist`EmrActivity`. PigActivity Unterstützt außerdem Daten-Staging. Wenn das Stage-Feld auf „true“ festgelegt wurde, arrangiert AWS Data Pipeline die Eingabedaten ohne zusätzlichen Code des Benutzers als Schema in Pig. 

## Beispiel
<a name="pigactivity-example"></a>

Im folgenden Pipeline-Beispiel wird gezeigt, wie `PigActivity` verwendet wird. Die Beispiel-Pipeline führt die folgenden Schritte aus:
+ MyPigActivity1 lädt Daten aus Amazon S3 und führt ein Pig-Skript aus, das einige Datenspalten auswählt und sie auf Amazon S3 hochlädt.
+ MyPigActivity2 lädt die erste Ausgabe, wählt einige Spalten und drei Datenzeilen aus und lädt sie als zweite Ausgabe auf Amazon S3 hoch.
+ MyPigActivity3 lädt die zweiten Ausgabedaten, fügt zwei Datenzeilen und nur die Spalte mit dem Namen „Fifth“ in Amazon RDS ein.
+ MyPigActivity4 lädt Amazon RDS-Daten, wählt die erste Datenzeile aus und lädt sie auf Amazon S3 hoch.

```
{
  "objects": [
    {
      "id": "MyInputData1",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "directoryPath": "s3://amzn-s3-demo-bucket/pigTestInput",
      "name": "MyInputData1",
      "dataFormat": {
        "ref": "MyInputDataType1"
      },
      "type": "S3DataNode"
    },
    {
      "id": "MyPigActivity4",
      "scheduleType": "CRON",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "input": {
        "ref": "MyOutputData3"
      },
      "pipelineLogUri": "s3://amzn-s3-demo-bucket/path/",
      "name": "MyPigActivity4",
      "runsOn": {
        "ref": "MyEmrResource"
      },
      "type": "PigActivity",
      "dependsOn": {
        "ref": "MyPigActivity3"
      },
      "output": {
        "ref": "MyOutputData4"
      },
      "script": "B = LIMIT ${input1} 1; ${output1} = FOREACH B GENERATE one;",
      "stage": "true"
    },
    {
      "id": "MyPigActivity3",
      "scheduleType": "CRON",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "input": {
        "ref": "MyOutputData2"
      },
      "pipelineLogUri": "s3://amzn-s3-demo-bucket/path",
      "name": "MyPigActivity3",
      "runsOn": {
        "ref": "MyEmrResource"
      },
      "script": "B = LIMIT ${input1} 2; ${output1} = FOREACH B GENERATE Fifth;",
      "type": "PigActivity",
      "dependsOn": {
        "ref": "MyPigActivity2"
      },
      "output": {
        "ref": "MyOutputData3"
      },
      "stage": "true"
    },
    {
      "id": "MyOutputData2",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "name": "MyOutputData2",
      "directoryPath": "s3://amzn-s3-demo-bucket/PigActivityOutput2",
      "dataFormat": {
        "ref": "MyOutputDataType2"
      },
      "type": "S3DataNode"
    },
    {
      "id": "MyOutputData1",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "name": "MyOutputData1",
      "directoryPath": "s3://amzn-s3-demo-bucket/PigActivityOutput1",
      "dataFormat": {
        "ref": "MyOutputDataType1"
      },
      "type": "S3DataNode"
    },
    {
      "id": "MyInputDataType1",
      "name": "MyInputDataType1",
      "column": [
        "First STRING",
        "Second STRING",
        "Third STRING",
        "Fourth STRING",
        "Fifth STRING",
        "Sixth STRING",
        "Seventh STRING",
        "Eighth STRING",
        "Ninth STRING",
        "Tenth STRING"
      ],
      "inputRegEx": "^(\\\\S+) (\\\\S+) (\\\\S+) (\\\\S+) (\\\\S+) (\\\\S+) (\\\\S+) (\\\\S+) (\\\\S+) (\\\\S+)",
      "type": "RegEx"
    },
    {
      "id": "MyEmrResource",
      "region": "us-east-1",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "keyPair": "example-keypair",
      "masterInstanceType": "m1.small",
      "enableDebugging": "true",
      "name": "MyEmrResource",
      "actionOnTaskFailure": "continue",
      "type": "EmrCluster"
    },
    {
      "id": "MyOutputDataType4",
      "name": "MyOutputDataType4",
      "column": "one STRING",
      "type": "CSV"
    },
    {
      "id": "MyOutputData4",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "directoryPath": "s3://amzn-s3-demo-bucket/PigActivityOutput3",
      "name": "MyOutputData4",
      "dataFormat": {
        "ref": "MyOutputDataType4"
      },
      "type": "S3DataNode"
    },
    {
      "id": "MyOutputDataType1",
      "name": "MyOutputDataType1",
      "column": [
        "First STRING",
        "Second STRING",
        "Third STRING",
        "Fourth STRING",
        "Fifth STRING",
        "Sixth STRING",
        "Seventh STRING",
        "Eighth STRING"
      ],
      "columnSeparator": "*",
      "type": "Custom"
    },
    {
      "id": "MyOutputData3",
      "username": "___",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "insertQuery": "insert into #{table} (one) values (?)",
      "name": "MyOutputData3",
      "*password": "___",
      "runsOn": {
        "ref": "MyEmrResource"
      },
      "connectionString": "jdbc:mysql://example-database-instance:3306/example-database",
      "selectQuery": "select * from #{table}",
      "table": "example-table-name",
      "type": "MySqlDataNode"
    },
    {
      "id": "MyOutputDataType2",
      "name": "MyOutputDataType2",
      "column": [
        "Third STRING",
        "Fourth STRING",
        "Fifth STRING",
        "Sixth STRING",
        "Seventh STRING",
        "Eighth STRING"
      ],
      "type": "TSV"
    },
    {
      "id": "MyPigActivity2",
      "scheduleType": "CRON",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "input": {
        "ref": "MyOutputData1"
      },
      "pipelineLogUri": "s3://amzn-s3-demo-bucket/path",
      "name": "MyPigActivity2",
      "runsOn": {
        "ref": "MyEmrResource"
      },
      "dependsOn": {
        "ref": "MyPigActivity1"
      },
      "type": "PigActivity",
      "script": "B = LIMIT ${input1} 3; ${output1} = FOREACH B GENERATE Third, Fourth, Fifth, Sixth, Seventh, Eighth;",
      "output": {
        "ref": "MyOutputData2"
      },
      "stage": "true"
    },
    {
      "id": "MyEmrResourcePeriod",
      "startDateTime": "2013-05-20T00:00:00",
      "name": "MyEmrResourcePeriod",
      "period": "1 day",
      "type": "Schedule",
      "endDateTime": "2013-05-21T00:00:00"
    },
    {
      "id": "MyPigActivity1",
      "scheduleType": "CRON",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "input": {
        "ref": "MyInputData1"
      },
      "pipelineLogUri": "s3://amzn-s3-demo-bucket/path",
      "scriptUri": "s3://amzn-s3-demo-bucket/script/pigTestScipt.q",
      "name": "MyPigActivity1",
      "runsOn": {
        "ref": "MyEmrResource"
      },
      "scriptVariable": [
        "column1=First",
        "column2=Second",
        "three=3"
      ],
      "type": "PigActivity",
      "output": {
        "ref": "MyOutputData1"
      },
      "stage": "true"
    }
  ]
}
```

Der Inhalt von `pigTestScript.q` ist wie folgt:

```
B = LIMIT ${input1} $three; ${output1} = FOREACH B GENERATE $column1, $column2, Third, Fourth, Fifth, Sixth, Seventh, Eighth;
```

## Syntax
<a name="pigactivity-syntax"></a>


****  

| Objektaufruf-Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| schedule | Dieses Objekt wird innerhalb der Ausführung eines Zeitplanintervalls aufgerufen. Benutzer müssen einen Zeitplanverweis auf ein anderes Objekt angeben, um die Abhängigkeitsausführungsreihenfolge für dieses Objekt festzulegen. Benutzer können diese Anforderung erfüllen, indem sie explizit einen Zeitplan für das Objekt festlegen, z. B. indem sie „schedule“: \$1"ref“: "DefaultSchedule„\$1 angeben. In den meisten Fällen ist es besser, den Zeitplanverweis auf das Standard-Pipeline-Objekt zu setzen, damit alle Objekte diesen Zeitplan erben. Wenn die Pipeline über einen Baum mit Zeitplänen verfügt (Zeitpläne innerhalb des Hauptplans), können Benutzer ein übergeordnetes Objekt mit Zeitplänenreferenz erstellen. Weitere Informationen zu optionalen Beispiel-Zeitplankonfigurationen finden Sie unter [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html). | Referenzobjekt, zum Beispiel „schedule“: \$1"ref“:“ myScheduleId „\$1 | 

 


****  

| Erforderliche Gruppe (mindestens eine der folgenden ist erforderlich) | Description | Slot-Typ | 
| --- | --- | --- | 
| script | Das auszuführende Pig-Skript. | Zeichenfolge | 
| scriptUri | Der Speicherort des auszuführenden Pig-Skripts (z. B. s3://scriptLocation). | Zeichenfolge | 

 


****  

| Erforderliche Gruppe (mindestens eine der folgenden ist erforderlich) | Description | Slot-Typ | 
| --- | --- | --- | 
| runsOn | EMR-Cluster, auf dem das PigActivity läuft. | Referenzobjekt, zum Beispiel „runsOn“: \$1"ref“:“ myEmrCluster Id "\$1 | 
| workerGroup | Die Auftragnehmergruppe. Dies wird für Routing-Aufgaben verwendet. Wenn Sie einen runsOn-Wert angeben und workerGroup vorhanden ist, wird ignoriert.workerGroup | Zeichenfolge | 

 


****  

| Optionale Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| attemptStatus | Der zuletzt gemeldete Status von der Remote-Aktivität. | Zeichenfolge | 
| attemptTimeout | Das Timeout für die Fertigstellung der Remote-Arbeit. Wenn diese Option aktiviert ist, kann eine Remote-Aktivität, die nicht innerhalb der festgelegten Startzeit abgeschlossen wird, wiederholt werden. | Zeitraum | 
| dependsOn | Gibt die Abhängigkeit von einem anderen ausführbaren Objekt an. | Referenzobjekt, zum Beispiel „dependSon“: \$1"ref“:“ myActivityId „\$1 | 
| failureAndRerunModus | Beschreibt das Verhalten des Konsumentenknotens, wenn Abhängigkeiten fehlschlagen oder erneut ausgeführt werden. | Aufzählung | 
| input | Die Eingangsdatenquelle. | Referenzobjekt, zum Beispiel „input“: \$1"ref“:“ myDataNode Id "\$1 | 
| lateAfterTimeout | Die verstrichene Zeit nach dem Start der Pipeline, innerhalb derer das Objekt abgeschlossen werden muss. Sie wird nur ausgelöst, wenn der Zeitplantyp nicht auf eingestellt ist. ondemand | Zeitraum | 
| maxActiveInstances | Die maximale Anzahl gleichzeitiger aktiver Instances einer Komponente. Wiederholungen zählen nicht zur Anzahl der aktiven Instances. | Ganzzahl | 
| maximumRetries | Die maximale Anzahl von Versuchen bei Ausfällen. | Ganzzahl | 
| onFail | Eine Aktion, die ausgeführt werden soll, wenn das aktuelle Objekt fehlschlägt. | Referenzobjekt, zum Beispiel „onFail“: \$1"ref“:“ myActionId „\$1 | 
| onLateAction | Aktionen, die ausgelöst werden sollen, wenn ein Objekt noch nicht geplant oder noch nicht abgeschlossen wurde. | Referenzobjekt, zum Beispiel "onLateAction„: \$1" ref“:“ myActionId „\$1 | 
| onSuccess | Eine Aktion, die ausgeführt wird, wenn das aktuelle Objekt erfolgreich ist. | Referenzobjekt, zum Beispiel „onSuccess“: \$1"ref“:“ myActionId „\$1 | 
| output | Die Eingangsdatenquelle. | Referenzobjekt, zum Beispiel „output“: \$1"ref“:“ myDataNode Id "\$1 | 
| übergeordneter | Übergeordnetes Objekt des aktuellen Objekts, aus dem Slots übernommen werden. | Referenzobjekt, zum Beispiel „parent“: \$1"ref“:“ myBaseObject Id "\$1 | 
| pipelineLogUri | Die Amazon S3 S3-URI (z. B. 's3://BucketName/Key/ ') zum Hochladen von Protokollen für die Pipeline. | Zeichenfolge | 
| postActivityTaskConfig | Post-Activity-Konfigurationsskript, das ausgeführt werden soll. Dies besteht aus einer URI des Shell-Skripts in Amazon S33 und einer Liste von Argumenten. | Referenzobjekt, zum Beispiel "postActivityTaskConfig“: \$1"ref“:“ myShellScript ConfigId „\$1 | 
| preActivityTaskConfig | Pre-Activity-Konfigurationsskript, das ausgeführt werden soll. Dieses besteht aus einer URI des Shell-Skripts in Amazon S3 und einer Liste von Argumenten. | Referenzobjekt, zum Beispiel "preActivityTaskConfig“: \$1"ref“:“ myShellScript ConfigId „\$1 | 
| precondition | Legen Sie optional eine Vorbedingung fest. Ein Datenknoten ist solange nicht als "BEREIT" markiert, bis alle Vorbedingungen erfüllt sind. | Referenzobjekt, zum Beispiel „precondition“: \$1"ref“:“ myPreconditionId „\$1 | 
| reportProgressTimeout | Das Timeout für aufeinanderfolgende Aufrufe von reportProgress durch Remote-Arbeit. Wenn diese Option aktiviert ist, werden Remote-Aktivitäten, die den Fortschritt für den angegebenen Zeitraum nicht melden, als fehlgeschlagen angesehen und es wird erneut versucht. | Zeitraum | 
| resizeClusterBeforeWird ausgeführt | Ändern Sie die Größe des Clusters, bevor Sie diese Aktivität ausführen, um DynamoDB-Datenknoten aufzunehmen, die als Eingaben oder Ausgaben angegeben sind. Wenn Ihre Aktivität a entweder `DynamoDBDataNode` als Eingabe- oder Ausgabedatenknoten verwendet und Sie den Wert auf setzen`TRUE`, AWS Data Pipeline beginnt die `resizeClusterBeforeRunning` Verwendung von `m3.xlarge` Instance-Typen. Dadurch wird Ihre Auswahl an Instance-Typen mit `m3.xlarge` überschrieben, wodurch Ihre monatlichen Kosten ansteigen könnten.  | Boolesch | 
| resizeClusterMaxInstanzen | Ein Limit für die maximale Anzahl von Instances, die vom Resize-Algorithmus angefordert werden können. | Ganzzahl | 
| retryDelay | Die Zeitüberschreitungsdauer zwischen zwei Wiederholungsversuchen. | Zeitraum | 
| scheduleType | Mit dem Zeitplantyp können Sie angeben, ob die Objekte in Ihrer Pipeline-Definition am Anfang des Intervalls oder am Ende des Intervalls geplant werden sollen. Zeitreihenstilplanung bedeutet, dass Instances am Ende jedes Intervalls geplant werden und Cron-Stil-Planung bedeutet, dass Instances zu Beginn jedes Intervalls geplant werden. Ein On-Demand-Zeitplan ermöglicht es Ihnen, eine Pipeline einmal pro Aktivierung auszuführen. Dies bedeutet, dass Sie die Pipeline nicht klonen oder neu erstellen müssen, um sie erneut auszuführen. Wenn Sie einen On-Demand-Zeitplan verwenden, muss er im Standardobjekt angegeben werden und der einzige für die Objekte in der Pipeline angegebene scheduleType sein. Um On-Demand-Pipelines zu verwenden, rufen Sie den ActivatePipeline Vorgang einfach für jeden nachfolgenden Lauf auf. Die Werte sind: cron, ondemand und timeseries. | Aufzählung | 
| scriptVariable | Die Argumente, die an das Pig-Skript übergeben werden sollen. Sie können scriptVariable mit script oder scriptUri verwenden. | Zeichenfolge | 
| stage | Bestimmt, ob das Staging aktiviert ist, und ermöglicht Ihrem Pig-Skript den Zugriff auf die Tabellen mit Staging-Daten, wie \$1 \$1INPUT1\$1 und \$1 \$1\$1. OUTPUT1 | Boolesch | 

 


****  

| Laufzeitfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @activeInstances | Liste der aktuell geplanten aktiven Instance-Objekte. | Referenzobjekt, zum Beispiel „ActiveInstances“: \$1"ref“:“ Id "\$1 myRunnableObject | 
| @actualEndTime | Zeitpunkt, zu dem die Ausführung dieses Objekts abgeschlossen wurde. | DateTime | 
| @actualStartTime | Zeitpunkt, zu dem die Ausführung dieses Objekts gestartet wurde. | DateTime | 
| cancellationReason | Die cancellationReason, wenn dieses Objekt storniert wurde. | Zeichenfolge | 
| @cascadeFailedOn | Beschreibung der Abhängigkeitskette, bei der das Objekt fehlgeschlagen ist. | Referenzobjekt, zum Beispiel "cascadeFailedOn„: \$1" ref“:“ myRunnableObject Id "\$1 | 
| emrStepLog | Amazon EMR-Schrittprotokolle sind nur bei EMR-Aktivitätsversuchen verfügbar. | Zeichenfolge | 
| errorId | Die errorId, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorMessage | Die errorMessage, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorStackTrace | Die Fehler-Stack-Ablaufverfolgung., wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| @finishedTime | Der Zeitpunkt, zu der dieses Objekt seine Ausführung beendet hat. | DateTime | 
| hadoopJobLog | Hadoop-Jobprotokolle für Versuche für EMR-basierte Aktivitäten verfügbar. | Zeichenfolge | 
| @healthStatus | Der Integritätsstatus des Objekts, der Erfolg oder Misserfolg der letzten Objekt-Instance widerspiegelt, die einen beendeten Zustand erreicht hat. | Zeichenfolge | 
| @healthStatusFromInstanceId | Id des Objekts der letzten Instance, das einen beendeten Zustand erreicht hat. | Zeichenfolge | 
| @ Zeit healthStatusUpdated | Zeitpunkt, zu dem der Servicestatus beim letzten Mal aktualisiert wurde. | DateTime | 
| hostname | Der Hostname des Clients, der den Aufgabenversuch aufnimmt. | Zeichenfolge | 
| @lastDeactivatedTime | Zeitpunkt, zu dem dieses Objekt zuletzt deaktiviert wurde. | DateTime | 
| @ latestCompletedRun Zeit | Zeitpunkt des letzten Laufs, für den die Ausführung abgeschlossen wurde. | DateTime | 
| @latestRunTime | Zeitpunkt des letzten Laufs, für den die Ausführung geplant war. | DateTime | 
| @nextRunTime | Zeitpunkt des Laufs, der als nächstes geplant werden soll | DateTime | 
| reportProgressTime | Der letzte Zeitpunkt, an dem die Remote-Aktivität einen Fortschritt gemeldet hat. | DateTime | 
| @scheduledEndTime | Endzeit für das Objekt einplanen. | DateTime | 
| @scheduledStartTime | Startzeit für das Objekt einplanen. | DateTime | 
| @Status | Der Status des Objekts. | Zeichenfolge | 
| @Version | Pipeline-Version, mit der das Objekt erstellt wurde | Zeichenfolge | 
| @waitingOn | Beschreibung der Liste der Abhängigkeiten, auf die dieses Objekt wartet. | Referenzobjekt, zum Beispiel „WaitingOn“: \$1"ref“:“ myRunnableObject Id "\$1 | 

 


****  

| Systemfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @error | Fehler mit einer Beschreibung des falsch formatierten Objekts. | Zeichenfolge | 
| @pipelineId | ID der Pipeline, zu der dieses Objekt gehört. | Zeichenfolge | 
| @sphere | Die Kugel eines Objekts bezeichnet seinen Platz im Lebenszyklus: Komponentenobjekte ergeben Instance-Objekte, die Versuchsobjekte ausführen. | Zeichenfolge | 

## Weitere Informationen finden Sie unter:
<a name="pigactivity-seealso"></a>
+ [ShellCommandActivity](dp-object-shellcommandactivity.md)
+ [EmrActivity](dp-object-emractivity.md)

# RedshiftCopyActivity
<a name="dp-object-redshiftcopyactivity"></a>

Kopiert Daten von DynamoDB oder Amazon S3 nach Amazon Redshift. Sie können Daten in eine neue Tabelle laden oder Daten in einer vorhandenen Tabelle einfach zusammenführen.

Hier finden Sie eine Übersicht über einen Anwendungsfall, in dem `RedshiftCopyActivity` verwendet wird:

1. Verwenden Sie zunächst AWS Data Pipeline , um Ihre Daten in Amazon S3 bereitzustellen. 

1. Wird verwendet`RedshiftCopyActivity`, um die Daten von Amazon RDS und Amazon EMR nach Amazon Redshift zu verschieben.

   Auf diese Weise können Sie Ihre Daten in Amazon Redshift laden, wo Sie sie analysieren können.

1. Wird verwendet[SqlActivity](dp-object-sqlactivity.md), um SQL-Abfragen für die Daten durchzuführen, die Sie in Amazon Redshift geladen haben.

 Darüber hinaus unterstützt `RedshiftCopyActivity` Ihre Arbeit mit einem `S3DataNode`, weil es eine Manifestdatei unterstützt. Weitere Informationen finden Sie unter [S3 DataNode](dp-object-s3datanode.md).

## Beispiel
<a name="redshiftcopyactivity-example"></a>

Es folgt ein Beispiel für diesen Objekttyp. 

Um die Formatkonvertierung sicherzustellen, verwendet dieses Beispiel [EMPTYASNULL](https://docs.aws.amazon.com/redshift/latest/dg/copy-parameters-data-conversion.html#copy-emptyasnull) und [IGNOREBLANKLINES](https://docs.aws.amazon.com/redshift/latest/dg/copy-parameters-data-conversion.html#copy-ignoreblanklines), spezielle Konvertierungsparameter in `commandOptions`. Weitere Informationen finden Sie unter [Datenkonvertierungsparameter](https://docs.aws.amazon.com/redshift/latest/dg/copy-parameters-data-conversion.html) im *Amazon Redshift Database Developer Guide*.

```
{
  "id" : "S3ToRedshiftCopyActivity",
  "type" : "RedshiftCopyActivity",
  "input" : { "ref": "MyS3DataNode" },
  "output" : { "ref": "MyRedshiftDataNode" },
  "insertMode" : "KEEP_EXISTING",
  "schedule" : { "ref": "Hour" },
  "runsOn" : { "ref": "MyEc2Resource" },
  "commandOptions": ["EMPTYASNULL", "IGNOREBLANKLINES"]
}
```

Die folgende Pipeline-Beispieldefinition zeigt eine Aktivität, die den Einfügemodus `APPEND` nutzt:

```
{
  "objects": [
    {
      "id": "CSVId1",
      "name": "DefaultCSV1",
      "type": "CSV"
    },
    {
      "id": "RedshiftDatabaseId1",
      "databaseName": "dbname",
      "username": "user",
      "name": "DefaultRedshiftDatabase1",
      "*password": "password",
      "type": "RedshiftDatabase",
      "clusterId": "redshiftclusterId"
    },
    {
      "id": "Default",
      "scheduleType": "timeseries",
      "failureAndRerunMode": "CASCADE",
      "name": "Default",
      "role": "DataPipelineDefaultRole",
      "resourceRole": "DataPipelineDefaultResourceRole"
    },
    {
      "id": "RedshiftDataNodeId1",
      "schedule": {
        "ref": "ScheduleId1"
      },
      "tableName": "orders",
      "name": "DefaultRedshiftDataNode1",
      "createTableSql": "create table StructuredLogs (requestBeginTime CHAR(30) PRIMARY KEY DISTKEY SORTKEY, requestEndTime CHAR(30), hostname CHAR(100), requestDate varchar(20));",
      "type": "RedshiftDataNode",
      "database": {
        "ref": "RedshiftDatabaseId1"
      }
    },
    {
      "id": "Ec2ResourceId1",
      "schedule": {
        "ref": "ScheduleId1"
      },
      "securityGroups": "MySecurityGroup",
      "name": "DefaultEc2Resource1",
      "role": "DataPipelineDefaultRole",
      "logUri": "s3://myLogs",
      "resourceRole": "DataPipelineDefaultResourceRole",
      "type": "Ec2Resource"
    },
    {
      "id": "ScheduleId1",
      "startDateTime": "yyyy-mm-ddT00:00:00",
      "name": "DefaultSchedule1",
      "type": "Schedule",
      "period": "period",
      "endDateTime": "yyyy-mm-ddT00:00:00"
    },
    {
      "id": "S3DataNodeId1",
      "schedule": {
        "ref": "ScheduleId1"
      },
      "filePath": "s3://datapipeline-us-east-1/samples/hive-ads-samples.csv",
      "name": "DefaultS3DataNode1",
      "dataFormat": {
        "ref": "CSVId1"
      },
      "type": "S3DataNode"
    },
    {
      "id": "RedshiftCopyActivityId1",
      "input": {
        "ref": "S3DataNodeId1"
      },
      "schedule": {
        "ref": "ScheduleId1"
      },
      "insertMode": "APPEND",
      "name": "DefaultRedshiftCopyActivity1",
      "runsOn": {
        "ref": "Ec2ResourceId1"
      },
      "type": "RedshiftCopyActivity",
      "output": {
        "ref": "RedshiftDataNodeId1"
      }
    }
  ]
}
```

Der `APPEND`-Vorgang fügt Elemente zu einer Tabelle hinzu, unabhängig von Primär- oder Sortierschlüsseln. Bei der folgenden Tabelle können Sie beispielsweise einen Datensatz mit demselben ID- und Benutzer-Wert anfügen.

```
ID(PK)     USER
1          aaa
2          bbb
```

Sie können einen Datensatz mit demselben ID- und Benutzer-Wert anfügen:

```
ID(PK)     USER
1          aaa
2          bbb
1          aaa
```

**Anmerkung**  
Wenn ein `APPEND`-Vorgang unterbrochen und wieder aufgenommen wird, ist es möglich, dass die entstandene Wiederausführungs-Pipeline von Anfang an Anfügungen vornimmt. Dies kann zu weiteren Duplizierungen führen. Sie sollten dieses Verhalten kennen, besonders, wenn Sie Logik verwenden, die die Anzahl an Zeilen zählt.

Ein Tutorial finden Sie unter [Daten mithilfe von Amazon Redshift nach Amazon Redshift kopieren AWS Data Pipeline](dp-copydata-redshift.md).

## Syntax
<a name="redshiftcopyactivity-syntax"></a>


****  

| Pflichtfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| insertMode |   Legt fest, AWS Data Pipeline was mit bereits vorhandenen Daten in der Zieltabelle geschehen soll, die sich mit Zeilen in den zu ladenden Daten überschneiden. Gültige Werte sind: `KEEP_EXISTING`, `OVERWRITE_EXISTING`, `TRUNCATE` und `APPEND`. `KEEP_EXISTING` fügt der Tabelle neue Zeilen hinzu und lässt die vorhandenen Zeilen unverändert. `KEEP_EXISTING` und` OVERWRITE_EXISTING` verwenden den Primärschlüssel, Sortier- und Verteilschlüssel, um zu identifizieren, welche eingehende Zeilen mit vorhandenen Zeilen übereinstimmen. Weitere Informationen finden Sie unter [Aktualisieren und Einfügen neuer Daten](https://docs.aws.amazon.com/redshift/latest/dg/t_updating-inserting-using-staging-tables-.html) im Amazon Redshift *Database Developer Guide*.  `TRUNCATE` löscht alle Daten in der Zieltabelle, bevor die neuen Daten hinzugefügt werden.  `APPEND` fügt alle Datensätze am Ende der Redshift-Tabelle an. `APPEND` setzt keinen Primär-, Verteilungs- oder Sortierschlüssel voraus. Es können also Zeilen hinzugefügt werden, bei denen es sich um potenzielle Duplikate handelt.  | Aufzählung | 

 


****  

| Objektaufruf-Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| schedule |  Dieses Objekt wird innerhalb der Ausführung eines Zeitplanintervalls aufgerufen.  Sie müssen einen Zeitplanverweis auf ein anderes Objekt angeben, um die Abhängigkeitsausführungsreihenfolge für dieses Objekt festzulegen.  In den meisten Fällen empfehlen wir, den Zeitplanverweis auf das Standard-Pipeline-Objekt zu setzen, damit alle Objekte diesen Zeitplan erben. Sie können beispielsweise einen Zeitplan explizit für das Objekt festlegen, indem Sie `"schedule": {"ref": "DefaultSchedule"}` angeben.  Wenn der Hauptplan in Ihrer Pipeline verschachtelte Zeitpläne enthält, erstellen Sie ein übergeordnetes Objekt mit Zeitplanreferenz.  Weitere Informationen zu optionalen Zeitplankonfigurationen finden Sie unter [Zeitplan](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html).   | Referenzobjekt, wie z. B.: "schedule":\$1"ref":"myScheduleId"\$1 | 

 


****  

| Erforderliche Gruppe (mindestens eine der folgenden ist erforderlich) | Description | Slot-Typ | 
| --- | --- | --- | 
| runsOn | Die Rechenressource zum Ausführen der Aktivität oder des Befehls. Beispiel: Amazon EC2 Instance oder Amazon EMR-Cluster. | Referenzobjekt, z. B. „runsOn“: \$1"ref“:“ myResourceId „\$1 | 
| workerGroup | Die Auftragnehmergruppe. Dies wird für Routing-Aufgaben verwendet. Wenn Sie einen runsOn-Wert angeben und workerGroup vorhanden ist, wird workerGroup ignoriert. | Zeichenfolge | 

 


****  

| Optionale Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| attemptStatus | Zuletzt gemeldeter Status von der Remote-Aktivität. | Zeichenfolge | 
| attemptTimeout | Timeout für die Remote-Arbeit abgeschlossen. Wenn diese Option aktiviert ist, kann eine Remote-Aktivität, die nicht innerhalb der festgelegten Startzeit abgeschlossen wird, wiederholt werden. | Zeitraum | 
| commandOptions |  Verwendet Parameter, die während des `COPY` Vorgangs an den Amazon Redshift Redshift-Datenknoten übergeben werden. Informationen zu Parametern finden Sie unter [COPY](https://docs.aws.amazon.com/redshift/latest/dg/r_COPY.html) im Amazon Redshift *Database Developer Guide*. Wenn `COPY` die Tabelle lädt, versucht der Befehl implizit, die Zeichenfolgen in den Quelldaten in den Datentyp der Zielspalte zu konvertieren. Zusätzlich zu den Standard-Datenkonvertierungen, die automatisch stattfinden, wenn Fehler erhalten oder andere Konvertierungen benötigen, können Sie zusätzliche Umrechnungsparameter angeben. Weitere Informationen finden Sie unter [Datenkonvertierungsparameter](https://docs.aws.amazon.com/redshift/latest/dg/copy-parameters-data-conversion.html) im Amazon Redshift *Database Developer Guide*. Wenn dem Eingabe- oder Ausgabedatenknoten ein Datenformat zugeordnet ist, werden die angegebenen Parameter ignoriert.  Da beim Kopieren die Daten zunächst mit dem Befehl `COPY` in eine Staging-Tabelle eingefügt und danach mit dem Befehl `INSERT` von der Staging- in die Zieltabelle kopiert werden, können einige `COPY`-Parameter nicht verwendet werden (z. B. die Fähigkeit des `COPY`-Befehls, der das automatische Komprimieren der Tabelle aktiviert). Wenn die Tabelle komprimiert werden soll, fügen Sie der Anweisung `CREATE TABLE` Angaben zur Spaltencodierung hinzu.  In einigen Fällen, in denen Daten aus dem Amazon Redshift-Cluster entladen und Dateien in Amazon S3 erstellt werden müssen, ist das außerdem auf den `UNLOAD` Betrieb von Amazon Redshift `RedshiftCopyActivity` angewiesen. Zur Verbesserung der Leistung beim Kopieren und Entladen geben Sie den `PARALLEL OFF`-Parameter aus dem `UNLOAD` Befehl an. Informationen zu Parametern finden Sie unter [UNLOAD](https://docs.aws.amazon.com/redshift/latest/dg/r_UNLOAD.html) im Amazon Redshift *Database Developer Guide*.  | Zeichenfolge | 
| dependsOn | Angeben der Abhängigkeit von einem anderen ausführbaren Objekt. | Referenzobjekt: "dependsOn":\$1"ref":"myActivityId"\$1 | 
| failureAndRerunModus | Beschreibt das Verhalten des Konsumentenknotens, wenn Abhängigkeiten fehlschlagen oder erneut ausgeführt werden | Aufzählung | 
| input | Der Eingabedatenknoten. Die Datenquelle kann Amazon S3, DynamoDB oder Amazon Redshift sein. | Referenzobjekt:  "input":\$1"ref":"myDataNodeId"\$1 | 
| lateAfterTimeout | Die nach dem Start der Pipeline verstrichene Zeit, innerhalb der das Objekt abgeschlossen werden muss. Sie wird nur ausgelöst, wenn der Zeitplantyp nicht auf eingestellt ist. ondemand | Zeitraum | 
| maxActiveInstances | Die maximale Anzahl gleichzeitiger aktiver Instances einer Komponente. Wiederholungen zählen nicht zur Anzahl der aktiven Instances. | Ganzzahl | 
| maximumRetries | Maximale Anzahl von Versuchen bei Ausfällen | Ganzzahl | 
| onFail | Eine Aktion, die ausgeführt werden soll, wenn das aktuelle Objekt fehlschlägt. | Referenzobjekt: "onFail":\$1"ref":"myActionId"\$1 | 
| onLateAction | Aktionen, die ausgelöst werden sollen, wenn ein Objekt noch nicht geplant oder noch nicht abgeschlossen wurde. | Referenzobjekt:  "onLateAction":\$1"ref":"myActionId"\$1 | 
| onSuccess | Eine Aktion, die ausgeführt wird, wenn das aktuelle Objekt erfolgreich ist. | Referenzobjekt:  "onSuccess":\$1"ref":"myActionId"\$1 | 
| output | Der Ausgabedatenknoten. Der Ausgabespeicherort kann Amazon S3 oder Amazon Redshift sein. | Referenzobjekt:  "output":\$1"ref":"myDataNodeId"\$1 | 
| übergeordneter | Übergeordnetes Objekt des aktuellen Objekts, aus dem Slots übernommen werden. | Referenzobjekt: "parent":\$1"ref":"myBaseObjectId"\$1 | 
| pipelineLogUri | Die S3-URI (z. B. 's3://BucketName/Key/ ') zum Hochladen von Protokollen für die Pipeline. | Zeichenfolge | 
| precondition | Legen Sie optional eine Vorbedingung fest. Ein Datenknoten ist solange nicht als "BEREIT" markiert, bis alle Vorbedingungen erfüllt sind. | Referenzobjekt: "precondition":\$1"ref":"myPreconditionId"\$1 | 
| Warteschlange |  Entspricht der `query_group ` Einstellung in Amazon Redshift, mit der Sie gleichzeitige Aktivitäten anhand ihrer Platzierung in Warteschlangen zuweisen und priorisieren können.  In Amazon Redshift sind bis zu 15 gleichzeitige Verbindungen möglich. Weitere Informationen finden Sie unter [Zuweisen von Abfragen zu Warteschlangen](https://docs.aws.amazon.com/AmazonRDS/latest/DeveloperGuide/cm-c-executing-queries.html) im Amazon RDS *Database Developer Guide*.  | Zeichenfolge | 
| reportProgressTimeout |  Timeout für aufeinanderfolgende Aufrufe von Remote-Arbeit in `reportProgress`.  Wenn diese Option aktiviert ist, werden Remote-Aktivitäten, die den Fortschritt für den angegebenen Zeitraum nicht melden, als fehlgeschlagen angesehen und es wird erneut versucht.  | Zeitraum | 
| retryDelay | Die Zeitüberschreitungsdauer zwischen zwei Wiederholungsversuchen. | Zeitraum | 
| scheduleType |  Mit dieser Option können Sie angeben, ob der Plan für die Objekte in Ihrer Pipeline vorgesehen ist. Werte sind `cron`, `ondemand` und `timeseries`. Die `timeseries` Planung bedeutet, dass Instances am Ende jedes Intervalls geplant sind. Die `Cron` Planung bedeutet, dass Instances am Anfang jedes Intervalls geplant sind.  Ein `ondemand`-Zeitplan ermöglicht es Ihnen, eine Pipeline einmal pro Aktivierung auszuführen. Dies bedeutet, dass Sie die Pipeline nicht klonen oder neu erstellen müssen, um sie erneut auszuführen.  Um `ondemand`-Pipelines zu verwenden, rufen Sie einfach den `ActivatePipeline`-Vorgang für jeden nachfolgenden Lauf auf.  Wenn Sie einen `ondemand`-Zeitplan verwenden, müssen Sie ihn im Standardobjekt angeben, und er muss der einzige für die Objekte in der Pipeline angegebene `scheduleType` sein.   | Aufzählung | 
| transformSql |  Der zum Transformieren der Eingabedaten verwendete `SQL SELECT`-Ausdruck.  Führen Sie den Ausdruck `transformSql` in der Tabelle mit dem Namen `staging` aus.  Wenn Sie Daten aus DynamoDB oder Amazon S3 kopieren, AWS Data Pipeline erstellt eine Tabelle namens „Staging“ und lädt zunächst Daten hinein. Die Daten dieser Tabelle werden zum Aktualisieren der Zieltabelle verwendet.  Das Ausgabe-Schema von `transformSql` muss mit dem Schema der endgültigen Zieltabelle übereinstimmen. Wenn Sie die Option `transformSql` angeben, wird von der angegebenen SQL-Anweisung eine zweite Staging-Tabelle erstellt. Die Daten dieser zweiten Staging-Tabelle werden anschließend in die endgültige Zieltabelle übernommen.  | Zeichenfolge | 

 


****  

| Laufzeitfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @activeInstances | Liste der aktuell geplanten aktiven Instance-Objekte. | Referenzobjekt: "activeInstances":\$1"ref":"myRunnableObjectId"\$1 | 
| @actualEndTime | Zeitpunkt, zu dem die Ausführung dieses Objekts abgeschlossen wurde. | DateTime | 
| @actualStartTime | Zeitpunkt, zu dem die Ausführung dieses Objekts gestartet wurde. | DateTime | 
| cancellationReason | Die cancellationReason, wenn dieses Objekt storniert wurde. | Zeichenfolge | 
| @cascadeFailedOn | Beschreibung der Abhängigkeitskette, bei der das Objekt fehlgeschlagen ist. | Referenzobjekt:  "cascadeFailedOn":\$1"ref":"myRunnableObjectId"\$1 | 
| emrStepLog | EMR-Schrittprotokolle nur bei EMR-Aktivitätsversuchen verfügbar | Zeichenfolge | 
| errorId | Die errorId, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorMessage | Die errorMessage, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorStackTrace | Die Fehler-Stack-Ablaufverfolgung., wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| @finishedTime | Der Zeitpunkt, zu der dieses Objekt seine Ausführung beendet hat. | DateTime | 
| hadoopJobLog | Hadoop-Jobprotokolle für Versuche für EMR-basierte Aktivitäten verfügbar. | Zeichenfolge | 
| @healthStatus | Der Integritätsstatus des Objekts, der Erfolg oder Misserfolg der letzten Objekt-Instance widerspiegelt, die einen beendeten Zustand erreicht hat. | Zeichenfolge | 
| @healthStatusFromInstanceId | Id des Objekts der letzten Instance, das einen beendeten Zustand erreicht hat. | Zeichenfolge | 
| @ Zeit healthStatusUpdated | Zeitpunkt, zu dem der Servicestatus beim letzten Mal aktualisiert wurde. | DateTime | 
| hostname | Der Hostname des Clients, der den Aufgabenversuch aufnimmt. | Zeichenfolge | 
| @lastDeactivatedTime | Zeitpunkt, zu dem dieses Objekt zuletzt deaktiviert wurde. | DateTime | 
| @ latestCompletedRun Zeit | Zeitpunkt des letzten Laufs, für den die Ausführung abgeschlossen wurde. | DateTime | 
| @latestRunTime | Zeitpunkt des letzten Laufs, für den die Ausführung geplant war. | DateTime | 
| @nextRunTime | Zeitpunkt des Laufs, der als nächstes geplant werden soll | DateTime | 
| reportProgressTime | Der letzte Zeitpunkt, an dem die Remote-Aktivität einen Fortschritt gemeldet hat. | DateTime | 
| @scheduledEndTime | Endzeit für Objekt einplanen. | DateTime | 
| @scheduledStartTime | Startzeit für Objekt einplanen. | DateTime | 
| @Status | Der Status des Objekts. | Zeichenfolge | 
| @Version | Pipeline-Version, mit der das Objekt erstellt wurde. | Zeichenfolge | 
| @waitingOn | Beschreibung der Liste der Abhängigkeiten, auf die dieses Objekt wartet. | Referenzobjekt:  "waitingOn":\$1"ref":"myRunnableObjectId"\$1 | 

 


****  

| Systemfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @error | Fehler mit einer Beschreibung des falsch formatierten Objekts. | Zeichenfolge | 
| @pipelineId | Id der Pipeline, zu der dieses Objekt gehört. | Zeichenfolge | 
| @sphere | Die Sphäre eines Objekts. Gibt seine Position im Lebenszyklus an. Beispielsweise ergeben Komponentenobjekte Instance-Objekte, die Versuchsobjekte ausführen. | Zeichenfolge | 

# ShellCommandActivity
<a name="dp-object-shellcommandactivity"></a>

 Führt einen Befehl oder ein Skript aus. Mit `ShellCommandActivity` können Sie Zeitreihen oder Cron-ähnliche geplante Aufgaben ausführen. 

Wenn das `stage` Feld auf true gesetzt ist und mit einem verwendet wird`S3DataNode`, `ShellCommandActivity` unterstützt es das Konzept der Datenbereitstellung, was bedeutet, dass Sie Daten von Amazon S3 an einen Staging-Speicherort wie Amazon EC2 oder Ihre lokale Umgebung verschieben können, die Daten mithilfe von Skripten und dem `ShellCommandActivity` bearbeiten und sie zurück zu Amazon S3 verschieben können. 

Wenn in diesem Fall Ihr Shell-Befehl mit einem Eingabe-`S3DataNode` verbunden ist, werden Ihre Shell-Skripts mit `${INPUT1_STAGING_DIR}`, `${INPUT2_STAGING_DIR}` und anderen Feldern ausgeführt, die auf die `ShellCommandActivity`-Eingabefelder verweisen. 

In ähnlicher Weise kann die Ausgabe des Shell-Befehls in einem Ausgabeverzeichnis bereitgestellt werden, um automatisch an Amazon S3 weitergeleitet zu werden, auf das mit, verwiesen wird `${OUTPUT1_STAGING_DIR}``${OUTPUT2_STAGING_DIR}`, usw. 

Diese Ausdrücke können als Befehlszeilenargumente zum Shell-Befehl weitergeleitet werden, sodass Sie sie für Datentransformationslogik verwenden können.

`ShellCommandActivity` gibt Linux-ähnliche Fehlercodes und Zeichenfolgen aus. Wenn `ShellCommandActivity` fehlschlägt, ist der angezeigte `error` ein Wert ungleich Null.

## Beispiel
<a name="shellcommandactivity-example"></a>

Es folgt ein Beispiel für diesen Objekttyp.

```
{
  "id" : "CreateDirectory",
  "type" : "ShellCommandActivity",
  "command" : "mkdir new-directory"
}
```

## Syntax
<a name="shellcommandactivity-syntax"></a>


****  

| Objektaufruf-Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| schedule |  Dieses Objekt wird innerhalb der Ausführung eines `schedule`-Intervalls aufgerufen. Um die Abhängigkeitsausführungsreihenfolge für dieses Objekt festzulegen, geben Sie eine `schedule`-Referenz auf ein anderes Objekt an.  Um diese Anforderung zu erfüllen, setzen Sie explizit einen `schedule` auf das Objekt, z. B. mit `"schedule": {"ref": "DefaultSchedule"}`.  In den meisten Fällen ist es besser, die `schedule`-Referenz auf das Standard-Pipeline-Objekt zu setzen, damit alle Objekte diesen Zeitplan erben. Besteht die Pipeline aus einem Baum mit Zeitplänen (Zeitpläne innerhalb des Hauptplans), erstellen Sie ein übergeordnetes Objekt, das eine Zeitplanreferenz besitzt.  Um die Last zu verteilen, AWS Data Pipeline erstellt physische Objekte etwas früher als geplant, führt sie aber termingerecht aus.  Weitere Informationen zu optionalen Beispiel-Zeitplankonfigurationen finden Sie unter [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html).  | Referenzobjekt, z. B. „schedule“: \$1"ref“:“ myScheduleId „\$1 | 

 


****  

| Erforderliche Gruppe (mindestens eine der folgenden ist erforderlich) | Description | Slot-Typ | 
| --- | --- | --- | 
| command | Den auszuführenden Befehl. Verwenden Sie \$1, um auf Positionsparameter zu verweisen, und geben Sie mit scriptArgument die Parameter für den Befehl an. Dieser Wert und alle zugehörigen Parameter müssen in der Umgebung funktionieren, in der Sie den Task-Runner ausführen. | Zeichenfolge | 
| scriptUri | Ein Amazon S3-URI-Pfad für eine Datei, die heruntergeladen und als Shell-Befehl ausgeführt werden soll. Geben Sie nur ein Feld scriptUri oder command an. scriptUri kann keine Parameter verwenden. Verwenden Sie stattdessen command. | Zeichenfolge | 

 


****  

| Erforderliche Gruppe (mindestens eine der folgenden ist erforderlich) | Description | Slot-Typ | 
| --- | --- | --- | 
| runsOn | Die Rechenressource zur Ausführung der Aktivität oder des Befehls, z. B. eine Amazon EC2 EC2-Instance oder ein Amazon EMR-Cluster. | Referenzobjekt, z. B. „runsOn“: \$1"ref“:“ myResourceId „\$1 | 
| workerGroup | Wird für Routing-Aufgaben verwendet. Wenn Sie einen runsOn-Wert angeben und workerGroup vorhanden ist, wird ignoriert.workerGroup | Zeichenfolge | 

 


****  

| Optionale Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| attemptStatus | Der zuletzt gemeldete Status von der Remote-Aktivität. | Zeichenfolge | 
| attemptTimeout | Das Timeout für die Fertigstellung der Remote-Arbeit. Wenn diese Option aktiviert ist, kann eine Remote-Aktivität, die nicht innerhalb der festgelegten Startzeit abgeschlossen wird, wiederholt werden. | Zeitraum | 
| dependsOn | Gibt eine Abhängigkeit von einem anderen ausführbaren Objekt an. | Referenzobjekt, z. B. „dependSon“: \$1"ref“:“ myActivityId „\$1 | 
| failureAndRerunModus | Beschreibt das Verhalten des Konsumentenknotens, wenn Abhängigkeiten fehlschlagen oder erneut ausgeführt werden. | Aufzählung | 
| input | Der Speicherort der Eingabedaten. | Referenzobjekt, z. B. „input“: \$1"ref“:“ myDataNode Id "\$1 | 
| lateAfterTimeout | Die nach dem Start der Pipeline verstrichene Zeit, innerhalb der das Objekt abgeschlossen werden muss. Sie wird nur ausgelöst, wenn der Zeitplantyp nicht auf eingestellt ist. ondemand | Zeitraum | 
| maxActiveInstances | Die maximale Anzahl gleichzeitiger aktiver Instances einer Komponente. Wiederholungen zählen nicht zur Anzahl der aktiven Instances. | Ganzzahl | 
| maximumRetries | Die maximale Anzahl von Versuchen bei Ausfällen. | Ganzzahl | 
| onFail | Eine Aktion, die ausgeführt werden soll, wenn das aktuelle Objekt fehlschlägt. | Referenzobjekt, z. B. „onFail“: \$1"ref“:“ myActionId „\$1 | 
| onLateAction | Aktionen, die ausgelöst werden sollen, wenn ein Objekt noch nicht geplant oder noch nicht abgeschlossen wurde. | Referenzobjekt, z. B. "onLateAction„: \$1" ref“:“ myActionId „\$1 | 
| onSuccess | Eine Aktion, die ausgeführt wird, wenn das aktuelle Objekt erfolgreich ist. | Referenzobjekt, z. B. „onSuccess“: \$1"ref“:“ myActionId „\$1 | 
| output | Der Speicherort der Ausgabedaten.  | Referenzobjekt, z. B. „output“: \$1"ref“:“ myDataNode Id "\$1 | 
| übergeordneter | Das übergeordnetes Objekt des aktuellen Objekts, aus dem Slots übernommen werden. | Referenzobjekt, z. B. „parent“: \$1"ref“:“ myBaseObject Id "\$1 | 
| pipelineLogUri | Die Amazon S3 S3-URI, z. B. 's3://BucketName/Key/' für das Hochladen von Protokollen für die Pipeline. | Zeichenfolge | 
| precondition | Definiert optional eine Vorbedingung. Ein Datenknoten ist solange nicht als "BEREIT" markiert, bis alle Vorbedingungen erfüllt sind. | Referenzobjekt, z. B. „precondition“: \$1"ref“:“ myPreconditionId „\$1 | 
| reportProgressTimeout | Das Timeout für aufeinanderfolgende Aufrufe von reportProgress durch Remote-Aktivitäten. Wenn diese Option aktiviert ist, werden Remote-Aktivitäten, die den Fortschritt für den angegebenen Zeitraum nicht melden, als fehlgeschlagen angesehen und es wird erneut versucht. | Zeitraum | 
| retryDelay | Die Zeitüberschreitungsdauer zwischen zwei Wiederholungsversuchen. | Zeitraum | 
| scheduleType |  Gestattet Ihnen, anzugeben, ob die Objekte in Ihrer Pipeline-Definition am Anfang des Intervalls oder am Ende des Intervalls geplant werden sollen.  Die Werte sind: `cron`, `ondemand` und `timeseries`. `timeseries` bedeutet, dass Instances am Ende jedes Intervalls geplant sind.  `Cron` bedeutet, dass Instances am Anfang jedes Intervalls geplant sind.  `ondemand` bedeutet, Sie können eine Pipeline jeweils einmal pro Aktivierung auszuführen. Dies bedeutet, dass Sie die Pipeline nicht klonen oder neu erstellen müssen, um sie erneut auszuführen. Wenn Sie einen `ondemand`-Zeitplan verwenden, geben Sie ihn im Standardobjekt als einzigen `scheduleType` für Objekte in der Pipeline an. Um `ondemand`-Pipelines zu verwenden, rufen Sie einfach den `ActivatePipeline`-Vorgang für jeden nachfolgenden Lauf auf.   | Aufzählung | 
| scriptArgument | Ein Zeichenfolgenarray im JSON-Format, das dem von dem Befehl angegebenen Befehl übergeben wird. Ist der Befehl beispielsweise echo \$11 \$12, geben Sie scriptArgument als "param1", "param2" an. Für mehrere Argumente und Parameter übergeben Sie das scriptArgument wie folgt:  "scriptArgument":"arg1","scriptArgument":"param1","scriptArgument":"arg2","scriptArgument":"param2" Das scriptArgument ist command. Die Verwendung durch einen Fehler scriptUri verursacht. | Zeichenfolge | 
| stage | Legt fest, ob Staging aktiviert ist, und gewährt Ihren Shell-Befehlen den Zugriff auf Staging-Datenvariablen, z. B. \$1\$1INPUT1\$1STAGING\$1DIR\$1 und  \$1\$1OUTPUT1\$1STAGING\$1DIR\$1. | Boolesch | 
| stderr | Der -Pfad, zu dem Systemfehlermeldungen vom Befehl umgeleitet werden. Wenn Sie das runsOn Feld verwenden, muss es sich um einen Amazon S3 S3-Pfad handeln, da die Ressource, auf der Ihre Aktivität ausgeführt wird, vorübergehend ist. Wenn Sie jedoch das Feld workerGroup angeben, ist ein lokaler Dateipfad zulässig. | Zeichenfolge | 
| stdout | Der Amazon S3 S3-Pfad, der die umgeleitete Ausgabe des Befehls empfängt. Wenn Sie das runsOn Feld verwenden, muss es sich um einen Amazon S3 S3-Pfad handeln, da die Ressource, auf der Ihre Aktivität ausgeführt wird, vorübergehend ist. Wenn Sie jedoch das Feld workerGroup angeben, ist ein lokaler Dateipfad zulässig. | Zeichenfolge | 

 


****  

| Laufzeitfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @activeInstances | Die Liste der aktuell geplanten aktiven Instance-Objekte. | Referenzobjekt, z. B. „activeInstances“: \$1"ref“:“ Id "\$1 myRunnableObject | 
| @actualEndTime | Der Zeitpunkt, zu dem die Ausführung dieses Objekts abgeschlossen wurde. | DateTime | 
| @actualStartTime | Der Zeitpunkt, zu dem die Ausführung dieses Objekts gestartet wurde. | DateTime | 
| cancellationReason | Der cancellationReason, wenn dieses Objekt storniert wurde. | Zeichenfolge | 
| @cascadeFailedOn | Die Beschreibung der Zuständigkeitskette, die den Objektausfall verursacht hat. | Referenzobjekt, z. B. "cascadeFailedOn„: \$1" ref“:“ myRunnableObject Id "\$1 | 
| emrStepLog | Amazon EMR-Schrittprotokolle sind nur bei Amazon EMR-Aktivitätsversuchen verfügbar. | Zeichenfolge | 
| errorId | Die errorId, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorMessage | Die errorMessage, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorStackTrace | Die Fehler-Stack-Ablaufverfolgung., wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| @finishedTime | Der Zeitpunkt, zu der das Objekt seine Ausführung beendet hat. | DateTime | 
| hadoopJobLog | Hadoop-Jobprotokolle sind bei Versuchen für Amazon EMR-basierte Aktivitäten verfügbar. | Zeichenfolge | 
| @healthStatus | Der Integritätsstatus des Objekts, der Erfolg oder Misserfolg der letzten Objekt-Instance widerspiegelt, die einen beendeten Zustand erreicht hat. | Zeichenfolge | 
| @healthStatusFromInstanceId | Die ID des Objekts der letzten Instance, das einen beendeten Zustand erreicht hat. | Zeichenfolge | 
| @ Zeit healthStatusUpdated | Der Zeitpunkt, zu dem der Servicestatus beim letzten Mal aktualisiert wurde. | DateTime | 
| hostname | Der Hostname des Clients, der den Aufgabenversuch aufnimmt. | Zeichenfolge | 
| @lastDeactivatedTime | Zeitpunkt, zu dem dieses Objekt zuletzt deaktiviert wurde. | DateTime | 
| @ latestCompletedRun Zeit | Der Zeitpunkt des letzten Laufs, für den die Ausführung abgeschlossen wurde. | DateTime | 
| @latestRunTime | Der Zeitpunkt des letzten Laufs, für den die Ausführung geplant war. | DateTime | 
| @nextRunTime | Der Zeitpunkt des Laufs, der als nächstes geplant werden soll | DateTime | 
| reportProgressTime | Der letzte Zeitpunkt, an dem die Remote-Aktivität einen Fortschritt gemeldet hat. | DateTime | 
| @scheduledEndTime | Die geplante Endzeit für das Objekt. | DateTime | 
| @scheduledStartTime | Die geplante Startzeit für das Objekt. | DateTime | 
| @Status | Der Status des Objekts. | Zeichenfolge | 
| @Version | Die AWS Data Pipeline Version, mit der das Objekt erstellt wurde. | Zeichenfolge | 
| @waitingOn | Die Beschreibung der Liste der Abhängigkeiten, auf die dieses Objekt wartet. | Referenzobjekt, z. B. „WaitingOn“: \$1"ref“:“ myRunnableObject Id "\$1 | 

 


****  

| Systemfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @error | Der Fehler mit einer Beschreibung des falsch formatierten Objekts. | Zeichenfolge | 
| @pipelineId | Die Id der Pipeline, zu der dieses Objekt gehört. | Zeichenfolge | 
| @sphere | Die Position eines Objekts im Lebenszyklus. Komponentenobjekte ergeben Instance-Objekte, die Versuchsobjekte ausführen. | Zeichenfolge | 

## Weitere Informationen finden Sie unter:
<a name="shellcommandactivity-seealso"></a>
+ [CopyActivity](dp-object-copyactivity.md)
+ [EmrActivity](dp-object-emractivity.md)

# SqlActivity
<a name="dp-object-sqlactivity"></a>

Führt eine SQL-Abfrage (Skript) auf einer Datenbank aus.

## Beispiel
<a name="sqlactivity-example"></a>

Es folgt ein Beispiel für diesen Objekttyp.

```
{
  "id" : "MySqlActivity",
  "type" : "SqlActivity",
  "database" : { "ref": "MyDatabaseID" },
  "script" : "SQLQuery" | "scriptUri" : s3://scriptBucket/query.sql,
  "schedule" : { "ref": "MyScheduleID" },
}
```

## Syntax
<a name="sqlactivity-syntax"></a>


****  

| Pflichtfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| Datenbank | Die Datenbank für die Ausführung des bereitgestellten SQL-Skripts. | Referenzobjekt, z. B. „database“: \$1"ref“:“ myDatabaseId „\$1 | 

 


****  

| Objektaufruf-Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| schedule |  Dieses Objekt wird innerhalb der Ausführung eines Zeitplanintervalls aufgerufen. Sie müssen einen Zeitplanverweis auf ein anderes Objekt angeben, um die Abhängigkeitsausführungsreihenfolge für dieses Objekt festzulegen. Sie können einen Zeitplan explizit für das Objekt festlegen, indem Sie `"schedule": {"ref": "DefaultSchedule"}` angeben.  In den meisten Fällen ist es besser, den Zeitplanverweis auf das Standard-Pipeline-Objekt zu setzen, damit alle Objekte diesen Zeitplan erben.  Wenn die Pipeline über einen Baum über in den Hauptplan verschachtelte Zeitplänen, können Benutzer ein übergeordnetes Objekt mit Zeitplanreferenz erstellen. Weitere Informationen zu optionalen Beispiel-Zeitplankonfigurationen finden Sie unter [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html).  | Referenzobjekt, z. B. „schedule“: \$1"ref“:“ myScheduleId „\$1 | 

 


****  

| Erforderliche Gruppe (mindestens eine der folgenden ist erforderlich) | Description | Slot-Typ | 
| --- | --- | --- | 
| script | Das auszuführende SQL-Skript. Sie müssen das Skript oder scriptUri angeben. Wenn das Skript in Amazon S3 gespeichert ist, wird das Skript nicht als Ausdruck ausgewertet. Die Angabe mehrerer Werte für scriptArgument ist hilfreich, wenn das Skript in Amazon S3 gespeichert ist. | Zeichenfolge | 
| scriptUri | Ein URI, der den Speicherort eines SQL-Skripts angibt, das in dieser Aktivität ausgeführt wird. | Zeichenfolge | 

 


****  

| Erforderliche Gruppe (mindestens eine der folgenden ist erforderlich) | Description | Slot-Typ | 
| --- | --- | --- | 
| runsOn | Die Rechenressource zum Ausführen der Aktivität oder des Befehls. Beispiel: Amazon EC2 Instance oder Amazon EMR-Cluster. | Referenzobjekt, z. B. „runsOn“: \$1"ref“:“ myResourceId „\$1 | 
| workerGroup | Die Auftragnehmergruppe. Dies wird für Routing-Aufgaben verwendet. Wenn Sie einen runsOn-Wert angeben und workerGroup vorhanden ist, wird ignoriert.workerGroup | Zeichenfolge | 

 


****  

| Optionale Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| attemptStatus | Zuletzt gemeldeter Status von der Remote-Aktivität. | Zeichenfolge | 
| attemptTimeout | Timeout für die Remote-Arbeit abgeschlossen. Wenn diese Option aktiviert ist, kann eine Remote-Aktivität, die nicht innerhalb der festgelegten Startzeit abgeschlossen wird, wiederholt werden. | Zeitraum | 
| dependsOn | Angeben der Abhängigkeit von einem anderen ausführbaren Objekt. | Referenzobjekt, z. B. „dependSon“: \$1"ref“:“ myActivityId „\$1 | 
| failureAndRerunModus | Beschreibt das Verhalten des Konsumentenknotens, wenn Abhängigkeiten fehlschlagen oder erneut ausgeführt werden | Aufzählung | 
| input | Speicherort der Eingabedaten. | Referenzobjekt, z. B. „input“: \$1"ref“:“ myDataNode Id "\$1 | 
| lateAfterTimeout | Der Zeitraum seit dem geplanten Start der Pipeline, in dem die Objektausführung starten muss. | Zeitraum | 
| maxActiveInstances | Die maximale Anzahl gleichzeitiger aktiver Instances einer Komponente. Wiederholungen zählen nicht zur Anzahl der aktiven Instances. | Ganzzahl | 
| maximumRetries | Maximale Anzahl von Versuchen bei Ausfällen | Ganzzahl | 
| onFail | Eine Aktion, die ausgeführt werden soll, wenn das aktuelle Objekt fehlschlägt. | Referenzobjekt, z. B. „onFail“: \$1"ref“:“ myActionId „\$1 | 
| onLateAction | Aktionen, die ausgelöst werden sollen, wenn ein Objekt in dem durch 'lateAfterTimeout' angegebenen Zeitraum seit dem geplanten Start der Pipeline noch nicht geplant oder immer noch nicht abgeschlossen wurde. | Referenzobjekt, z. B. "onLateAction„: \$1" ref“:“ myActionId „\$1 | 
| onSuccess | Eine Aktion, die ausgeführt wird, wenn das aktuelle Objekt erfolgreich ist. | Referenzobjekt, z. B. „onSuccess“: \$1"ref“:“ myActionId „\$1 | 
| output | Speicherort der Ausgabedaten. Dies ist nur nützlich, um innerhalb eines Skripts zu referenzieren (z. B.\$1\$1output.tablename\$1) und um die Ausgabetabelle zu erstellen, indem 'createTableSql' im Ausgabedatenknoten gesetzt wird. Die Ausgabe der SQL-Abfrage wird nicht in den Ausgabedatenknoten geschrieben. | Referenzobjekt, z. B. „output“: \$1"ref“:“ myDataNode Id "\$1 | 
| übergeordneter | Übergeordnetes Objekt des aktuellen Objekts, aus dem Slots übernommen werden. | Referenzobjekt, z. B. „parent“: \$1"ref“:“ myBaseObject Id "\$1 | 
| pipelineLogUri | Die S3-URI (wie 's3://BucketName/Key/ ') zum Hochladen von Protokollen für die Pipeline. | Zeichenfolge | 
| precondition | Legen Sie optional eine Vorbedingung fest. Ein Datenknoten ist solange nicht als "BEREIT" markiert, bis alle Vorbedingungen erfüllt sind. | Referenzobjekt, z. B. „precondition“: \$1"ref“:“ „\$1 myPreconditionId | 
| Warteschlange | [Nur Amazon Redshift] Entspricht der Einstellung query\$1group in Amazon Redshift, mit der Sie gleichzeitig auszuführende Aktivitäten anhand ihrer Platzierung in Warteschlangen zuweisen und priorisieren können. In Amazon Redshift sind bis zu 15 gleichzeitige Verbindungen möglich. Weitere Informationen finden Sie unter [Zuweisen von Abfragen zu Warteschlangen](https://docs.aws.amazon.com/redshift/latest/dg/cm-c-executing-queries.html) im Amazon Redshift Datenbankentwicklungshandbuch. | Zeichenfolge | 
| reportProgressTimeout | Timeout für aufeinanderfolgende Aufrufe von Remote-Arbeit in reportProgress. Wenn diese Option aktiviert ist, werden Remote-Aktivitäten, die den Fortschritt für den angegebenen Zeitraum nicht melden, als fehlgeschlagen angesehen und es wird erneut versucht. | Zeitraum | 
| retryDelay | Die Zeitüberschreitungsdauer zwischen zwei Wiederholungsversuchen. | Zeitraum | 
| scheduleType |  Mit dem Zeitplantyp können Sie angeben, ob die Objekte in Ihrer Pipeline-Definition am Anfang des Intervalls oder am Ende des Intervalls geplant werden sollen. Werte sind `cron`, `ondemand` und `timeseries`.  `timeseries` Planung bedeutet, dass Instances am Ende jedes Intervalls geplant sind. `cron` Planung bedeutet, dass Instances am Anfang jedes Intervalls geplant sind.  Ein `ondemand`-Zeitplan ermöglicht es Ihnen, eine Pipeline einmal pro Aktivierung auszuführen. Dies bedeutet, dass Sie die Pipeline nicht klonen oder neu erstellen müssen, um sie erneut auszuführen. Wenn Sie einen `ondemand`-Zeitplan verwenden, muss er im Standardobjekt angegeben werden und der einzige für die Objekte in der Pipeline angegebene `scheduleType` sein. Um `ondemand`-Pipelines zu verwenden, rufen Sie einfach den `ActivatePipeline`-Vorgang für jeden nachfolgenden Lauf auf.   | Aufzählung | 
| scriptArgument | Eine Liste der Variablen für das Skript. Sie können alternativ Ausdrücke direkt in das Skriptfeld einfügen. Mehrere Werte für scriptArgument sind hilfreich, wenn das Skript in Amazon S3 gespeichert ist. Beispiel: \$1 \$1format (@scheduledStartTime, "YY-MM-DD HH:MM:SS"\$1\$1n\$1 \$1format (plusPeriod (@scheduledStartTime, „1 Tag“), "HH:MM:SS"\$1 YY-MM-DD  | Zeichenfolge | 

 


****  

| Laufzeitfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @activeInstances | Liste der aktuell geplanten aktiven Instance-Objekte. | Referenzobjekt, z. B. „ActiveInstances“: \$1"ref“:“ Id "\$1 myRunnableObject | 
| @actualEndTime | Zeitpunkt, zu dem die Ausführung dieses Objekts abgeschlossen wurde. | DateTime | 
| @actualStartTime | Zeitpunkt, zu dem die Ausführung dieses Objekts gestartet wurde. | DateTime | 
| cancellationReason | Die cancellationReason, wenn dieses Objekt storniert wurde. | Zeichenfolge | 
| @cascadeFailedOn | Beschreibung der Abhängigkeitskette, bei der das Objekt fehlgeschlagen ist. | Referenzobjekt, z. B. "cascadeFailedOn„: \$1" ref“:“ myRunnableObject Id "\$1 | 
| emrStepLog | EMR-Schrittprotokolle nur bei EMR-Aktivitätsversuchen verfügbar | Zeichenfolge | 
| errorId | Die errorId, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorMessage | Die errorMessage, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorStackTrace | Die Fehler-Stack-Ablaufverfolgung., wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| @finishedTime | Der Zeitpunkt, zu der dieses Objekt seine Ausführung beendet hat. | DateTime | 
| hadoopJobLog | Hadoop-Jobprotokolle für Versuche für EMR-basierte Aktivitäten verfügbar. | Zeichenfolge | 
| @healthStatus | Der Integritätsstatus des Objekts, der Erfolg oder Misserfolg der letzten Objekt-Instance widerspiegelt, die einen beendeten Zustand erreicht hat. | Zeichenfolge | 
| @healthStatusFromInstanceId | Id des Objekts der letzten Instance, das einen beendeten Zustand erreicht hat. | Zeichenfolge | 
| @ healthStatusUpdated Zeit | Zeitpunkt, zu dem der Servicestatus beim letzten Mal aktualisiert wurde. | DateTime | 
| hostname | Der Hostname des Clients, der den Aufgabenversuch aufnimmt. | Zeichenfolge | 
| @lastDeactivatedTime | Zeitpunkt, zu dem dieses Objekt zuletzt deaktiviert wurde. | DateTime | 
| @ latestCompletedRun Zeit | Zeitpunkt des letzten Laufs, für den die Ausführung abgeschlossen wurde. | DateTime | 
| @latestRunTime | Zeitpunkt des letzten Laufs, für den die Ausführung geplant war. | DateTime | 
| @nextRunTime | Zeitpunkt des Laufs, der als nächstes geplant werden soll | DateTime | 
| reportProgressTime | Der letzte Zeitpunkt, an dem die Remote-Aktivität einen Fortschritt gemeldet hat. | DateTime | 
| @scheduledEndTime | Endzeit für Objekt einplanen | DateTime | 
| @scheduledStartTime | Startzeit für Objekt einplanen | DateTime | 
| @Status | Der Status des Objekts. | Zeichenfolge | 
| @Version | Pipeline-Version, mit der das Objekt erstellt wurde. | Zeichenfolge | 
| @waitingOn | Beschreibung der Liste der Abhängigkeiten, auf die dieses Objekt wartet. | Referenzobjekt, z. B. „waitingOn“: \$1"ref“:“ myRunnableObject Id "\$1 | 

 


****  

| Systemfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @error | Fehler mit einer Beschreibung des falsch formatierten Objekts. | Zeichenfolge | 
| @pipelineId | Id der Pipeline, zu der dieses Objekt gehört. | Zeichenfolge | 
| @sphere | Die Kugel eines Objekts bezeichnet seinen Platz im Lebenszyklus: Komponentenobjekte ergeben Instance-Objekte, die Versuchsobjekte ausführen. | Zeichenfolge | 

# Ressourcen
<a name="dp-object-resources"></a>

Im Folgenden sind die AWS Data Pipeline Ressourcenobjekte aufgeführt:

**Topics**
+ [Ec2Resource](dp-object-ec2resource.md)
+ [EmrCluster](dp-object-emrcluster.md)
+ [HttpProxy](dp-object-httpproxy.md)

# Ec2Resource
<a name="dp-object-ec2resource"></a>

Eine Amazon EC2 EC2-Instance, die die durch eine Pipeline-Aktivität definierte Arbeit ausführt.

AWS Data Pipeline unterstützt jetzt IMDSv2 für die Amazon EC2 EC2-Instance, die eine sitzungsorientierte Methode verwendet, um die Authentifizierung beim Abrufen von Metadateninformationen von Instances besser handhaben zu können. Eine Sitzung beginnt und beendet eine Reihe von Anfragen, die Software, die auf einer Amazon EC2 EC2-Instance ausgeführt wird, verwendet, um auf die lokal gespeicherten Amazon EC2 EC2-Instance-Metadaten und Anmeldeinformationen zuzugreifen. Die Software startet eine Sitzung mit einer einfachen HTTP-PUT-Anfrage an IMDSv2. IMDSv2 gibt ein geheimes Token an die Software zurück, die auf der Amazon EC2 EC2-Instance ausgeführt wird. Diese verwendet das Token als Passwort, um Anfragen IMDSv2 nach Metadaten und Anmeldeinformationen zu stellen.

**Anmerkung**  
Um IMDSv2 für Ihre Amazon EC2 EC2-Instance zu verwenden, müssen Sie die Einstellungen ändern, da das Standard-AMI nicht kompatibel mit ist. IMDSv2 Sie können eine neue AMI-Version angeben, die Sie über den folgenden SSM-Parameter abrufen können:`/aws/service/ami-amazon-linux-latest/amzn-ami-hvm-x86_64-ebs`.

Informationen zu standardmäßigen Amazon EC2 EC2-Instances, die AWS Data Pipeline erstellt werden, wenn Sie keine Instance angeben, finden Sie unter[Standard-Amazon EC2-Instances nach AWS-Region](dp-ec2-default-instance-types.md).

## Beispiele
<a name="ec2resource-example"></a>

**EC2-Classic**

**Wichtig**  
Nur AWS Konten, die vor dem 4. Dezember 2013 erstellt wurden, unterstützen die EC2-Classic-Plattform. Wenn Sie über eines dieser Konten verfügen, haben Sie möglicherweise die Möglichkeit, EC2Resource-Objekte für eine Pipeline in einem EC2-Classic-Netzwerk anstelle einer VPC zu erstellen. Wir empfehlen dringend, Ressourcen für alle Ihre Pipelines in VPCs zu erstellen. Wenn Sie bereits über Ressourcen in EC2-Classic verfügen, empfehlen wir Ihnen außerdem, diese auf eine VPC zu migrieren.

Das folgende Beispielobjekt startet eine EC2-Instance in EC2-Classic, wobei einige optionale Felder gesetzt sind.

```
{
  "id" : "MyEC2Resource",
  "type" : "Ec2Resource",
  "actionOnTaskFailure" : "terminate",
  "actionOnResourceFailure" : "retryAll",
  "maximumRetries" : "1",
  "instanceType" : "m5.large",
  "securityGroups" : [
    "test-group",
    "default"
  ],
  "keyPair" : "my-key-pair"
}
```

**EC2-VPC**

Das folgende Beispielobjekt startet eine EC2 Instance in einem nicht standardmäßigen VPC, wobei einige optionale Felder festgelegt sind.

```
{
  "id" : "MyEC2Resource",
  "type" : "Ec2Resource",
  "actionOnTaskFailure" : "terminate",
  "actionOnResourceFailure" : "retryAll",
  "maximumRetries" : "1",
  "instanceType" : "m5.large",
  "securityGroupIds" : [
    "sg-12345678",
    "sg-12345678"
  ],
  "subnetId": "subnet-12345678",
  "associatePublicIpAddress": "true",
  "keyPair" : "my-key-pair"
}
```

## Syntax
<a name="ec2resource-syntax"></a>


****  

| Pflichtfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| resourceRole | Die IAM-Rolle, die die Ressourcen steuert, auf die die Amazon EC2 EC2-Instance zugreifen kann. | Zeichenfolge | 
| role | Die IAM-Rolle, mit der die AWS Data Pipeline EC2-Instance erstellt wird. | Zeichenfolge | 

 


****  

| Objektaufruf-Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| schedule |  Dieses Objekt wird innerhalb der Ausführung eines Zeitplanintervalls aufgerufen.  Sie müssen einen Zeitplanverweis auf ein anderes Objekt angeben, um die Abhängigkeitsausführungsreihenfolge für dieses Objekt festzulegen. Sie können dafür eine der folgenden Möglichkeiten auswählen: [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/datapipeline/latest/DeveloperGuide/dp-object-ec2resource.html)  | Referenzobjekt, z. B. "schedule":\$1"ref":"myScheduleId"\$1 | 

 


****  

| Optionale Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| actionOnResourceFehlschlag | Die Aktion, die nach einem Ressourcenfehler dieser Ressource ausgeführt wird. Gültige Werte sind "retryall" und "retrynone". | Zeichenfolge | 
| actionOnTaskFehlschlag | Die Aktion, die nach einem Aufgabenfehler dieser Ressource ausgeführt wird. Gültige Werte sind "continue" oder "terminate". | Zeichenfolge | 
| associatePublicIpAdresse | Gibt an, ob der Instance eine öffentliche IP-Adresse zugewiesen wird. Wenn sich die Instance in Amazon EC2 oder Amazon VPC befindet, ist der Standardwert. true Andernfalls ist der Standardwert false. | Boolesch | 
| attemptStatus | Zuletzt gemeldeter Status von der Remote-Aktivität. | Zeichenfolge | 
| attemptTimeout | Timeout für die Fertigstellung der Remote-Arbeit. Wenn diese Option aktiviert ist, kann eine Remote-Aktivität, die nicht innerhalb der festgelegten Startzeit abgeschlossen wird, wiederholt werden. | Zeitraum | 
| availabilityZone | Die Availability Zone, in der die Amazon EC2 EC2-Instance gestartet werden soll. | Zeichenfolge | 
| deaktivieren IMDSv1 | Der Standardwert ist falsch und aktiviert sowohl als auch IMDSv1 IMDSv2. Wenn Sie ihn auf true setzen, wird er deaktiviert IMDSv1 und bietet nur IMDSv2s | Boolesch | 
| failureAndRerunModus | Beschreibt das Verhalten des Konsumentenknotens, wenn Abhängigkeiten fehlschlagen oder erneut ausgeführt werden. | Aufzählung | 
| httpProxy | Der Proxyhost, den Clients verwenden, um eine Verbindung zu AWS Diensten herzustellen. | Referenzobjekt, z. B.  "httpProxy":\$1"ref":"myHttpProxyId"\$1 | 
| imageId | Die ID des für die Instance zu verwendenden AMI. AWS Data Pipeline Verwendet standardmäßig den Virtualisierungstyp HVM AMI. Das IDs verwendete spezifische AMI basiert auf einer Region. Sie können das Standard-AMI überschreiben, indem Sie das von Ihnen gewählte HVM-AMI angeben. Weitere Informationen zu AMI-Typen finden Sie unter [Linux AMI Virtualization Types](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/virtualization_types.html) [und Finding a Linux AMI](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/finding-an-ami.html) im *Amazon EC2 EC2-Benutzerhandbuch*.  | Zeichenfolge | 
| initTimeout | Die Zeit, die auf den Start der Ressource gewartet wird.  | Zeitraum | 
| instanceCount | Als veraltet gekennzeichnet. | Ganzzahl | 
| instanceType | Der Typ der Amazon EC2 EC2-Instance, die gestartet werden soll. | Zeichenfolge | 
| keyPair | Der Name des Schlüsselpaars. Wenn Sie eine Amazon EC2 EC2-Instance starten, ohne ein key pair anzugeben, können Sie sich nicht bei ihr anmelden. | Zeichenfolge | 
| lateAfterTimeout | Die verstrichene Zeit nach dem Start der Pipeline, innerhalb derer das Objekt abgeschlossen werden muss. Sie wird nur ausgelöst, wenn der Zeitplantyp nicht auf eingestellt ist. ondemand | Zeitraum | 
| maxActiveInstances | Die maximale Anzahl gleichzeitiger aktiver Instances einer Komponente. Wiederholungen zählen nicht zur Anzahl der aktiven Instances. | Ganzzahl | 
| maximumRetries | Die maximale Anzahl von Versuchen bei Ausfällen. | Ganzzahl | 
| minInstanceCount | Als veraltet gekennzeichnet. | Ganzzahl | 
| onFail | Eine Aktion, die ausgeführt werden soll, wenn das aktuelle Objekt fehlschlägt. | Referenzobjekt, z. B.  "onFail":\$1"ref":"myActionId"\$1 | 
| onLateAction | Aktionen, die ausgelöst werden sollen, wenn ein Objekt noch nicht geplant wurde oder noch ausgeführt wird. | Referenzobjekt, z. B. "onLateAction":\$1"ref":"myActionId"\$1 | 
| onSuccess | Eine Aktion, die ausgeführt wird, wenn das aktuelle Objekt erfolgreich ist. | Referenzobjekt, z. B.  "onSuccess":\$1"ref":"myActionId"\$1 | 
| übergeordneter | Das übergeordnete Objekt des aktuellen Objekts, aus dem Slots übernommen werden. | Referenzobjekt, z. B.  "parent":\$1"ref":"myBaseObjectId"\$1 | 
| pipelineLogUri | Die Amazon S3 S3-URI (z. B.'s3://BucketName/Key/') zum Hochladen von Protokollen für die Pipeline. | Zeichenfolge | 
| Region |  Der Code für die Region, in der die Amazon EC2 EC2-Instance ausgeführt werden soll. Standardmäßig wird die Instance in derselben Region wie die Pipeline ausgeführt. Sie können die Instance in derselben Region als abhängiges Datenset ausführen. | Aufzählung | 
| reportProgressTimeout | Das Timeout für aufeinanderfolgende Aufrufe von reportProgress durch Remote-Arbeit. Wenn diese Option aktiviert ist, werden Remote-Aktivitäten, die den Fortschritt für den angegebenen Zeitraum nicht melden, als fehlgeschlagen angesehen und erneut versucht. | Zeitraum | 
| retryDelay | Die Zeitüberschreitungsdauer zwischen zwei Wiederholungsversuchen. | Zeitraum | 
| runAsUser | Der Benutzer, der ausgeführt werden soll. TaskRunner | Zeichenfolge | 
| runsOn | Dieses Feld ist für dieses Objekt nicht zulässig. | Referenzobjekt, z. B. "runsOn":\$1"ref":"myResourceId"\$1 | 
| scheduleType |  Mit dem Zeitplantyp können Sie angeben, ob die Objekte in Ihrer Pipeline-Definition am Anfang oder am Ende eines Intervalls oder bedarfsabhängig geplant werden sollen. Die Werte sind: [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/datapipeline/latest/DeveloperGuide/dp-object-ec2resource.html)  | Aufzählung | 
| securityGroupIds | Die IDs einer oder mehrerer Amazon EC2-Sicherheitsgruppen, die für die Instances im Ressourcenpool verwendet werden sollen. | Zeichenfolge | 
| securityGroups | Eine oder mehrere Amazon EC2-Sicherheitsgruppen, die für die Instances im Ressourcenpool verwendet werden sollen. | Zeichenfolge | 
| spotBidPrice | Die maximale Datenmenge pro Stunde für Ihre Spot-Instance in Dollar, wobei es sich um einen Dezimalwert zwischen 0 und einschließlich 20,00 handelt. | Zeichenfolge | 
| subnetId | Die ID des Amazon EC2-Subnetzes, in dem die Instance gestartet werden soll. | Zeichenfolge | 
| terminateAfter | Die Anzahl der Stunden, nach denen die Ressource zu beenden ist. | Zeitraum | 
| useOnDemandOnLastAttempt | Dieses Feld bestimmt, ob beim letzten Versuch, eine Spot-Instance anzufordern, stattdessen eine On-Demand-Instance angefordert wird. Auf diese Weise wird sichergestellt, dass wenn die vorherigen Versuche fehlgeschlagen sind, der letzte Versuch nicht unterbrochen wird. | Boolesch | 
| workerGroup | Dieses Feld ist für dieses Objekt nicht zulässig. | Zeichenfolge | 

 


****  

| Laufzeitfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @activeInstances | Liste der aktuell geplanten aktiven Instance-Objekte. | Referenzobjekt, z. B. "activeInstances":\$1"ref":"myRunnableObjectId"\$1 | 
| @actualEndTime | Zeitpunkt, zu dem die Ausführung dieses Objekts abgeschlossen wurde. | DateTime | 
| @actualStartTime | Zeitpunkt, zu dem die Ausführung dieses Objekts gestartet wurde. | DateTime | 
| cancellationReason | Der cancellationReason, wenn dieses Objekt storniert wurde. | Zeichenfolge | 
| @cascadeFailedOn | Beschreibung der Zuständigkeitskette, bei der das Objekt fehlgeschlagen ist. | Referenzobjekt, z. B. "cascadeFailedOn":\$1"ref":"myRunnableObjectId"\$1 | 
| emrStepLog | Schrittprotokolle sind nur bei Amazon EMR-Aktivitätsversuchen verfügbar. | Zeichenfolge | 
| errorId | Die Fehler-ID, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorMessage | Die Fehlermeldung, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorStackTrace | Die Fehler-Stack-Ablaufverfolgung., wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| @failureReason | Der Grund für den Ressourcenfehler. | Zeichenfolge | 
| @finishedTime | Der Zeitpunkt, zu der dieses Objekt seine Ausführung beendet hat. | DateTime | 
| hadoopJobLog | Hadoop-Jobprotokolle sind bei Versuchen für Amazon EMR-Aktivitäten verfügbar. | Zeichenfolge | 
| @healthStatus | Der Integritätsstatus des Objekts, der Erfolg oder Misserfolg der letzten Objekt-Instance widerspiegelt, die einen beendeten Zustand erreicht hat. | Zeichenfolge | 
| @healthStatusFromInstanceId | Id des Objekts der letzten Instance, das einen beendeten Zustand erreicht hat. | Zeichenfolge | 
| @ Zeit healthStatusUpdated | Zeitpunkt, zu dem der Servicestatus beim letzten Mal aktualisiert wurde. | DateTime | 
| hostname | Der Hostname des Clients, der den Aufgabenversuch aufnimmt. | Zeichenfolge | 
| @lastDeactivatedTime | Zeitpunkt, zu dem dieses Objekt zuletzt deaktiviert wurde. | DateTime | 
| @ latestCompletedRun Zeit | Zeitpunkt des letzten Laufs, für den die Ausführung abgeschlossen wurde. | DateTime | 
| @latestRunTime | Zeitpunkt des letzten Laufs, für den die Ausführung geplant war. | DateTime | 
| @nextRunTime | Zeitpunkt des Laufs, der als nächstes geplant werden soll | DateTime | 
| reportProgressTime | Der letzte Zeitpunkt, an dem die Remote-Aktivität einen Fortschritt gemeldet hat. | DateTime | 
| @scheduledEndTime | Die geplante Endzeit für das Objekt. | DateTime | 
| @scheduledStartTime | Die geplante Startzeit für das Objekt. | DateTime | 
| @Status | Der Status des Objekts. | Zeichenfolge | 
| @Version | Die Pipeline-Version, mit der das Objekt erstellt wurde. | Zeichenfolge | 
| @waitingOn | Beschreibung der Liste der Abhängigkeiten, auf die dieses Objekt wartet. | Referenzobjekt, z. B.  "waitingOn":\$1"ref":"myRunnableObjectId"\$1 | 

 


****  

| Systemfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @error | Fehler mit einer Beschreibung des falsch formatierten Objekts. | Zeichenfolge | 
| @pipelineId | ID der Pipeline, zu der dieses Objekt gehört. | Zeichenfolge | 
| @sphere | Die Position eines Objekts im Lebenszyklus. Komponentenobjekte ergeben Instance-Objekte, die Versuchsobjekte ausführen. | Zeichenfolge | 

# EmrCluster
<a name="dp-object-emrcluster"></a>

Stellt die Konfiguration eines Amazon EMR-Clusters dar. Dieses Objekt wird von [EmrActivity](dp-object-emractivity.md) und [HadoopActivity](dp-object-hadoopactivity.md) zum Starten eines Clusters verwendet.

**Topics**
+ [Schedulers](#emrcluster-schedulers)
+ [Amazon EMR-Release-Versionen](#dp-emrcluster-release-versions)
+ [Amazon EMR-Berechtigungen](#w2aac52c17b9c11)
+ [Syntax](#emrcluster-syntax)
+ [Beispiele](emrcluster-example.md)
+ [Weitere Informationen finden Sie unter:](#emrcluster-seealso)

## Schedulers
<a name="emrcluster-schedulers"></a>

Scheduler bieten eine Möglichkeit, die Ressourcenzuweisung und Auftragspriorisierung in einem Hadoop-Cluster festzulegen. Administratoren oder Benutzer können einen Scheduler für verschiedene Klassen von Benutzern und Anwendungen auswählen. Ein Scheduler könnte Warteschlangen nutzen, um Ressourcen für Benutzer und Anwendungen zuzuweisen. Sie richten diese Warteschlangen beim Erstellen des Clusters ein. Anschließend können Sie für bestimmte Arbeits- und Benutzertypen eine höhere Priorität festlegen als für andere. Dieses Vorgehen ermöglicht die effiziente Nutzung von Cluster-Ressourcen, wenn mehrere Benutzer Arbeiten zum Cluster übermitteln. Es gibt drei Arten von Schedulern:
+ [FairScheduler](https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/FairScheduler.html)— Versucht, Ressourcen gleichmäßig über einen längeren Zeitraum einzuplanen.
+ [CapacityScheduler](https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/CapacityScheduler.html)— Verwendet Warteschlangen, um Clusteradministratoren zu ermöglichen, Benutzer Warteschlangen mit unterschiedlicher Priorität und Ressourcenzuweisung zuzuweisen. 
+ Standard: wird vom Cluster verwendet, was über Ihre Site konfiguriert werden kann.

## Amazon EMR-Release-Versionen
<a name="dp-emrcluster-release-versions"></a>

Eine Amazon-EMR-Version ist eine Gruppe von Open-Source-Anwendungen aus dem Big-Data-Ökosystem. Jede Version umfasst verschiedene Big-Data-Anwendungen, Komponenten und Funktionen, die Sie bei der Erstellung eines Clusters für die Installation und Konfiguration von Amazon EMR auswählen. Sie geben die Version unter Verwendung der Versionsbezeichnung an. Versionsbezeichnungen haben die Form `emr-x.x.x`. Beispiel, `emr-5.30.0`. Amazon EMR-Cluster basieren auf dem Release-Label `emr-4.0.0` und verwenden später die `releaseLabel` Eigenschaft, um das Release-Label eines `EmrCluster` Objekts anzugeben. Frühere Versionen verwenden die Eigenschaft `amiVersion`.

**Wichtig**  
Alle Amazon EMR-Cluster, die mit Version 5.22.0 oder höher erstellt wurden, verwenden [Signature Version 4](https://docs.aws.amazon.com/general/latest/gr/signature-version-4.html), um Anfragen an Amazon S3 zu authentifizieren. Einige frühere Versionen verwenden Signature Version 2. Die Unterstützung für Signature Version 2 wird eingestellt. Weitere Informationen finden Sie unter [Amazon S3 Update — SigV2 Deprecation Period Extended and Modified](https://aws.amazon.com/blogs/aws/amazon-s3-update-sigv2-deprecation-period-extended-modified/). Wir empfehlen dringend, eine Amazon EMR-Release-Version zu verwenden, die Signature Version 4 unterstützt. Für frühere Versionen, beginnend mit EMR 4.7.x, wurde die neueste Version der Serie aktualisiert, um Signature Version 4 zu unterstützen. Wenn Sie eine frühere EMR-Version verwenden, empfehlen wir, die neueste Version der Serie zu verwenden. Vermeiden Sie außerdem Versionen vor EMR 4.7.0.

### Überlegungen und Einschränkungen
<a name="dp-emrcluster-considerations"></a>

#### Verwenden Sie die neueste Version von Task Runner
<a name="dp-task-runner-latest"></a>

Wenn Sie ein selbstverwaltetes `EmrCluster` Objekt mit einem Release-Label verwenden, verwenden Sie den neuesten Task Runner. Weitere Informationen zu Task-Runner finden Sie unter [Arbeiten mit Task Runner](dp-using-task-runner.md). Sie können Eigenschaftswerte für alle Amazon EMR-Konfigurationsklassifizierungen konfigurieren. Weitere Informationen finden Sie unter [Configuring Applications](https://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide/emr-configure-apps.html) im *Amazon EMR Release Guide*, in und in den [EmrConfiguration](dp-object-emrconfiguration.md) [Eigenschaft](dp-object-property.md) Objektreferenzen. 

#### Support für IMDSv2
<a name="dp-emr-imdsv2-support"></a>

Bisher nur AWS Data Pipeline unterstützt IMDSv1. AWS Data Pipeline Unterstützt IMDSv2 jetzt Amazon EMR 5.23.1, 5.27.1 und 5.32 oder höher sowie Amazon EMR 6.2 oder höher. IMDSv2 verwendet eine sitzungsorientierte Methode, um die Authentifizierung beim Abrufen von Metadateninformationen von Instances besser handhaben zu können. Sie sollten Ihre Instanzen so konfigurieren, dass sie IMDSv2 Aufrufe tätigen, indem Sie benutzerverwaltete Ressourcen mit -2.0 erstellen. TaskRunner

#### Amazon EMR 5.32 oder höher und Amazon EMR 6.x
<a name="dp-emr-6-classpath"></a>

Die Release-Serien Amazon EMR 5.32 oder höher und 6.x verwenden Hadoop Version 3.x, wodurch grundlegende Änderungen bei der Bewertung des Klassenpfads von Hadoop im Vergleich zu Hadoop-Version 2.x eingeführt wurden. Gängige Bibliotheken wie Joda-Time wurden aus dem Klassenpfad entfernt.

Wenn [EmrActivity](dp-object-emractivity.md) oder eine [HadoopActivity](dp-object-hadoopactivity.md) Jar-Datei ausführt, die Abhängigkeiten von einer Bibliothek hat, die in Hadoop 3.x entfernt wurde, schlägt der Schritt mit dem Fehler oder fehl. `java.lang.NoClassDefFoundError` `java.lang.ClassNotFoundException` Dies kann bei Jar-Dateien passieren, die mit den Release-Versionen von Amazon EMR 5.x problemlos ausgeführt wurden.

Um das Problem zu beheben, müssen Sie Abhängigkeiten von Jar-Dateien in den Hadoop-Klassenpfad eines `EmrCluster` Objekts kopieren, bevor Sie das oder das starten. `EmrActivity` `HadoopActivity` Dafür stellen wir ein Bash-Skript zur Verfügung. Das Bash-Skript ist an der folgenden Stelle verfügbar, beispielsweise in der AWS Region, in der Ihr `EmrCluster` Objekt ausgeführt wird. *MyRegion* `us-west-2`

```
s3://datapipeline-MyRegion/MyRegion/bootstrap-actions/latest/TaskRunner/copy-jars-to-hadoop-classpath.sh
```

Die Art und Weise, wie das Skript ausgeführt wird, hängt davon ab, ob `EmrActivity` es auf einer Ressource `HadoopActivity` ausgeführt wird, die von einer selbst verwalteten Ressource verwaltet wird, AWS Data Pipeline oder ob es auf einer selbst verwalteten Ressource ausgeführt wird.

Wenn Sie eine Ressource verwenden, die von verwaltet wird AWS Data Pipeline, fügen Sie dem `EmrCluster` Objekt eine `bootstrapAction` hinzu. Das `bootstrapAction` gibt das Skript und die Jar-Dateien an, die als Argumente kopiert werden sollen. Sie können bis zu 255 `bootstrapAction` Felder pro `EmrCluster` Objekt hinzufügen, und Sie können ein `bootstrapAction` Feld zu einem `EmrCluster` Objekt hinzufügen, das bereits über Bootstrap-Aktionen verfügt.

Um dieses Skript als Bootstrap-Aktion anzugeben, verwenden Sie die folgende Syntax: Dabei `JarFileRegion` handelt es sich um die Region, in der die Jar-Datei gespeichert ist, und jeweils *MyJarFile*n** um den absoluten Pfad einer Jar-Datei in Amazon S3, die in den Hadoop-Klassenpfad kopiert werden soll. Geben Sie standardmäßig keine Jar-Dateien an, die sich im Hadoop-Klassenpfad befinden.

```
s3://datapipeline-MyRegion/MyRegion/bootstrap-actions/latest/TaskRunner/copy-jars-to-hadoop-classpath.sh,JarFileRegion,MyJarFile1,MyJarFile2[, ...]
```

Das folgende Beispiel spezifiziert eine Bootstrap-Aktion, die zwei Jar-Dateien in Amazon S3 kopiert: `my-jar-file.jar` und die`emr-dynamodb-tool-4.14.0-jar-with-dependencies.jar`. Die im Beispiel verwendete Region ist us-west-2.

```
{
  "id" : "MyEmrCluster",
  "type" : "EmrCluster",
  "keyPair" : "my-key-pair",
  "masterInstanceType" : "m5.xlarge",
  "coreInstanceType" : "m5.xlarge",
  "coreInstanceCount" : "2",
  "taskInstanceType" : "m5.xlarge",
  "taskInstanceCount": "2",
  "bootstrapAction" : ["s3://datapipeline-us-west-2/us-west-2/bootstrap-actions/latest/TaskRunner/copy-jars-to-hadoop-classpath.sh,us-west-2,s3://path/to/my-jar-file.jar,s3://dynamodb-dpl-us-west-2/emr-ddb-storage-handler/4.14.0/emr-dynamodb-tools-4.14.0-jar-with-dependencies.jar"]
}
```

Sie müssen die Pipeline speichern und aktivieren, damit die Änderung an der neuen `bootstrapAction` Pipeline wirksam wird.

Wenn Sie eine selbstverwaltete Ressource verwenden, können Sie das Skript auf die Clusterinstanz herunterladen und es über die Befehlszeile mit SSH ausführen. Das Skript erstellt ein Verzeichnis mit dem Namen `/etc/hadoop/conf/shellprofile.d` und eine `datapipeline-jars.sh` in diesem Verzeichnis benannte Datei. Die als Befehlszeilenargumente bereitgestellten JAR-Dateien werden in ein Verzeichnis kopiert, das das Skript mit dem Namen erstellt. `/home/hadoop/datapipeline_jars` Wenn Ihr Cluster anders eingerichtet ist, ändern Sie das Skript nach dem Herunterladen entsprechend.

Die Syntax für die Ausführung des Skripts in der Befehlszeile unterscheidet sich geringfügig von der im vorherigen Beispiel `bootstrapAction` gezeigten Syntax. Verwenden Sie Leerzeichen anstelle von Kommas zwischen Argumenten, wie im folgenden Beispiel gezeigt.

```
./copy-jars-to-hadoop-classpath.sh us-west-2 s3://path/to/my-jar-file.jar s3://dynamodb-dpl-us-west-2/emr-ddb-storage-handler/4.14.0/emr-dynamodb-tools-4.14.0-jar-with-dependencies.jar
```

## Amazon EMR-Berechtigungen
<a name="w2aac52c17b9c11"></a>

Wenn Sie eine benutzerdefinierte IAM-Rolle erstellen, sollten Sie sorgfältig die Mindestberechtigungen berücksichtigen, die Ihr Cluster zur Ausführung seiner Aufgaben benötigt. Stellen Sie sicher, dass Sie Zugriff auf die erforderlichen Ressourcen gewähren, z. B. Dateien in Amazon S3 oder Daten in Amazon RDS, Amazon Redshift oder DynamoDB. Wenn Sie `visibleToAllUsers` auf „False“ festlegen möchten, muss Ihre Rolle über die entsprechenden Berechtigungen verfügen. Beachten Sie, dass `DataPipelineDefaultRole` nicht über diese Berechtigungen verfügt. Sie müssen entweder eine Vereinigung der `DataPipelineDefaultRole` Rollen `DefaultDataPipelineResourceRole` und als `EmrCluster` Objektrolle angeben oder zu diesem Zweck Ihre eigene Rolle erstellen.

## Syntax
<a name="emrcluster-syntax"></a>


****  

| Objektaufruf-Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| schedule | Dieses Objekt wird innerhalb der Ausführung eines Zeitplanintervalls aufgerufen. Sie müssen einen Zeitplanverweis auf ein anderes Objekt angeben, um die Abhängigkeitsausführungsreihenfolge für dieses Objekt festzulegen. Sie können diese Anforderung erfüllen, indem Sie explizit einen Zeitplan für das Objekt festlegen, indem sie beispielsweise "schedule": \$1"ref": "DefaultSchedule"\$1 angeben. In den meisten Fällen ist es besser, den Zeitplanverweis auf das Standard-Pipeline-Objekt zu setzen, damit alle Objekte diesen Zeitplan erben. Wenn die Pipeline über einen Baum mit Zeitplänen verfügt (Zeitpläne innerhalb des Hauptplans), können Sie ein übergeordnetes Objekt mit Zeitplänenreferenz erstellen. Weitere Informationen zu optionalen Beispiel-Zeitplankonfigurationen finden Sie unter [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html). | Referenzobjekt, z. B.  "schedule":\$1"ref":"myScheduleId"\$1 | 

 


****  

| Optionale Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| actionOnResourceFehlschlag | Die Aktion, die nach einem Ressourcenfehler dieser Ressource ausgeführt wird. Gültige Werte sind "retryall", der für die festgelegte Dauer wiederholt versucht, alle Aufgaben des Clusters durchzuführen, und "retrynone". | Zeichenfolge | 
| actionOnTaskFehlschlag | Die Aktion, die nach einem Aufgabenfehler dieser Ressource ausgeführt wird. Gültige Werte sind "continue", was bedeutet, dass der Cluster nicht beendet wird, und "terminate". | Zeichenfolge | 
| additionalMasterSecurityGroupIds | Die Kennung zusätzlicher Master-Sicherheitsgruppen des EMR-Clusters, die der Form XXXX6a sg-01 folgt. Weitere Informationen finden Sie unter [Zusätzliche Amazon EMR-Sicherheitsgruppen](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-additional-sec-groups.html) im Amazon EMR Management Guide. | Zeichenfolge | 
| additionalSlaveSecurityGroupIds | Die ID zusätzlicher Slave-Sicherheitsgruppen des EMR-Clusters, die dem Format sg-01XXXX6a entspricht. | Zeichenfolge | 
| amiVersion | Die Amazon Machine Image (AMI) -Version, die Amazon EMR zur Installation der Clusterknoten verwendet. Weitere Informationen finden Sie im [Amazon EMR-Managementhandbuch](https://docs.aws.amazon.com/emr/latest/ManagementGuide/). | Zeichenfolge | 
| applications | Anwendungen, die im Cluster mit durch Kommas getrennten Argumenten installiert werden sollen. Hive und Pig sind standardmäßig installiert. Dieser Parameter gilt nur für Amazon EMR Version 4.0 und höher. | Zeichenfolge | 
| attemptStatus | Der zuletzt gemeldete Status von der Remote-Aktivität. | Zeichenfolge | 
| attemptTimeout | Timeout für die Remote-Arbeit abgeschlossen. Wenn diese Option aktiviert ist, kann eine Remote-Aktivität, die nicht innerhalb der festgelegten Startzeit abgeschlossen wird, wiederholt werden. | Zeitraum | 
| availabilityZone | Die Availability Zone, in der der Cluster gestartet werden soll. | Zeichenfolge | 
| bootstrapAction | Eine Aktion, die ausgeführt werden soll, wenn der Cluster startet. Sie können durch Kommas getrennte Argumente festlegen. Wenn Sie mehrere Aktionen angeben möchten (maximal 255), fügen Sie die entsprechende Anzahl von bootstrapAction-Feldern hinzu. Standardmäßig wird der Cluster ohne Bootstrap-Aktionen gestartet. | Zeichenfolge | 
| configuration | Konfiguration für den Amazon EMR-Cluster. Dieser Parameter gilt nur für Amazon EMR Version 4.0 und höher. | Referenzobjekt, z. B. "configuration":\$1"ref":"myEmrConfigurationId"\$1 | 
| coreInstanceBidPreis | Der maximale Spot-Preis, den Sie bereit sind, für Amazon EC2 EC2-Instances zu zahlen. Wenn ein Angebotspreis angegeben ist, verwendet Amazon EMR Spot-Instances für die Instance-Gruppe. Angegeben in USD. | Zeichenfolge | 
| coreInstanceCount | Gibt an, wie viele Core-Knoten für den Cluster verwendet werden sollen. | Ganzzahl | 
| coreInstanceType | Der Typ der Amazon EC2 EC2-Instance, die für Core-Knoten verwendet werden soll. Siehe [Unterstützte Amazon EC2 EC2-Instances für Amazon EMR-Cluster](dp-emr-supported-instance-types.md). | Zeichenfolge | 
| coreGroupConfiguration | Die Konfiguration für die Amazon EMR-Cluster-Core-Instance-Gruppe. Dieser Parameter gilt nur für Amazon EMR Version 4.0 und höher. | Referenzobjekt, z. B. “configuration”: \$1“ref”: “myEmrConfigurationId”\$1 | 
| coreEbsConfiguration | Die Konfiguration für Amazon EBS-Volumes, die an jeden der Kernknoten in der Kerngruppe im Amazon EMR-Cluster angehängt werden. Weitere Informationen finden Sie unter [Instance-Typen, die die EBS-Optimierung Support](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/EBSOptimized.html) im Amazon EC2 EC2-Benutzerhandbuch. | Referenzobjekt, z. B. “coreEbsConfiguration”: \$1“ref”: “myEbsConfiguration”\$1 | 
| customAmiId | Gilt nur für Amazon EMR-Release-Version 5.7.0 und höher. Gibt die AMI-ID eines benutzerdefinierten AMI an, das verwendet werden soll, wenn Amazon EMR Amazon EC2 EC2-Instances bereitstellt. Sie kann auch anstelle von Bootstrap-Aktionen verwendet werden, um Cluster-Knotenkonfigurationen anzupassen. Weitere Informationen finden Sie unter dem folgenden Thema im Amazon EMR Management Guide. [Verwenden eines benutzerdefinierten AMI](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-custom-ami.html) | Zeichenfolge | 
| EbsBlockDeviceConfig |  Die Konfiguration eines angeforderten Amazon EBS-Blockgeräts, das der Instanzgruppe zugeordnet ist. Diese umfasst eine feste Anzahl an Volumes, die jeder Instance in der Instance-Gruppe zugeordnet wird. Sie umfasst `volumesPerInstance` und `volumeSpecification`, wobei:  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/datapipeline/latest/DeveloperGuide/dp-object-emrcluster.html)  | Referenzobjekt, z. B. “EbsBlockDeviceConfig”: \$1“ref”: “myEbsBlockDeviceConfig”\$1 | 
| emrManagedMasterSecurityGroupId | Die ID der Master-Sicherheitsgruppe des Amazon EMR-Clusters, die der Form von sg-01XXXX6a folgt. Weitere Informationen finden [Sie unter Configure Security Groups](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-security-groups.html) im Amazon EMR Management Guide. | Zeichenfolge | 
| emrManagedSlaveSecurityGroupId | Die ID der Slave-Sicherheitsgruppe des Amazon EMR-Clusters, die dem Formular sg-01XXXX6a folgt. | Zeichenfolge | 
| enableDebugging | Aktiviert das Debuggen auf dem Amazon EMR-Cluster. | Zeichenfolge | 
| failureAndRerunModus | Beschreibt das Verhalten des Konsumentenknotens, wenn Abhängigkeiten fehlschlagen oder erneut ausgeführt werden. | Aufzählung | 
| hadoopSchedulerType | Der Scheduler-Typ des Clusters. Gültige Typen sind:  PARALLEL\$1FAIR\$1SCHEDULING PARALLEL\$1CAPACITY\$1SCHEDULING und  DEFAULT\$1SCHEDULER. | Aufzählung | 
| httpProxy | Der Proxy-Host, der von Clients zum Verbinden mit den AWS-Services verwendet wird. | Referenzobjekt, zum Beispiel „HttpProxy“: \$1"ref“:“ myHttpProxy Id "\$1 | 
| initTimeout | Die Zeit, die auf den Start der Ressource gewartet wird.  | Zeitraum | 
| keyPair | Das Amazon EC2 EC2-Schlüsselpaar, das für die Anmeldung am Master-Knoten des Amazon EMR-Clusters verwendet werden soll. | Zeichenfolge | 
| lateAfterTimeout | Die verstrichene Zeit nach dem Start der Pipeline, innerhalb derer das Objekt abgeschlossen werden muss. Sie wird nur ausgelöst, wenn der Zeitplantyp nicht auf eingestellt ist. ondemand | Zeitraum | 
| masterInstanceBidPreis | Der maximale Spot-Preis, den Sie bereit sind, für Amazon EC2 EC2-Instances zu zahlen. Es handelt sich um einen Dezimalwert zwischen 0 und einschließlich 20,00. Angegeben in USD. Wenn Sie diesen Wert festlegen, werden Spot-Instances für den Master-Knoten des Amazon EMR-Clusters aktiviert. Wenn ein Angebotspreis angegeben ist, verwendet Amazon EMR Spot-Instances für die Instance-Gruppe. | Zeichenfolge | 
| masterInstanceType | Der Typ der Amazon EC2 EC2-Instance, die für den Master-Knoten verwendet werden soll. Siehe [Unterstützte Amazon EC2 EC2-Instances für Amazon EMR-Cluster](dp-emr-supported-instance-types.md). | Zeichenfolge | 
| masterGroupConfiguration | Die Konfiguration für die Amazon EMR-Cluster-Master-Instance-Gruppe. Dieser Parameter gilt nur für Amazon EMR Version 4.0 und höher. | Referenzobjekt, z. B. “configuration”: \$1“ref”: “myEmrConfigurationId”\$1 | 
| masterEbsConfiguration | Die Konfiguration für Amazon EBS-Volumes, die an jeden der Master-Knoten in der Master-Gruppe im Amazon EMR-Cluster angehängt werden. Weitere Informationen finden Sie unter [Instance-Typen, die die EBS-Optimierung Support](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/EBSOptimized.html) im Amazon EC2 EC2-Benutzerhandbuch. | Referenzobjekt, z. B. “masterEbsConfiguration”: \$1“ref”: “myEbsConfiguration”\$1 | 
| maxActiveInstances | Die maximale Anzahl gleichzeitiger aktiver Instances einer Komponente. Wiederholungen zählen nicht zur Anzahl der aktiven Instances. | Ganzzahl | 
| maximumRetries | Maximale Anzahl von Versuchen bei Ausfällen. | Ganzzahl | 
| onFail | Eine Aktion, die ausgeführt werden soll, wenn das aktuelle Objekt fehlschlägt. | Referenzobjekt, z. B. "onFail":\$1"ref":"myActionId"\$1 | 
| onLateAction | Aktionen, die ausgelöst werden sollen, wenn ein Objekt noch nicht geplant oder noch nicht abgeschlossen wurde. | Referenzobjekt, z. B. "onLateAction":\$1"ref":"myActionId"\$1 | 
| onSuccess | Eine Aktion, die ausgeführt wird, wenn das aktuelle Objekt erfolgreich ist. | Referenzobjekt, z. B. "onSuccess":\$1"ref":"myActionId"\$1 | 
| übergeordneter | Übergeordnetes Objekt des aktuellen Objekts, aus dem Slots übernommen werden. | Referenzobjekt, z. B. "parent":\$1"ref":"myBaseObjectId"\$1 | 
| pipelineLogUri | Die Amazon S3 S3-URI (z. B. 's3://BucketName/Key/ ') zum Hochladen von Protokollen für die Pipeline. | Zeichenfolge | 
| Region | Der Code für die Region, in der der Amazon EMR-Cluster ausgeführt werden soll. Standardmäßig wird der Cluster in derselben Region wie die Pipeline ausgeführt. Sie können den Cluster in derselben Region als abhängiges Datenset ausführen.  | Aufzählung | 
| releaseLabel | Versionsbezeichnung für den EMR-Cluster | Zeichenfolge | 
| reportProgressTimeout | Timeout für aufeinanderfolgende Aufrufe von Remote-Arbeit in reportProgress. Wenn diese Option aktiviert ist, werden Remote-Aktivitäten, die den Fortschritt für den angegebenen Zeitraum nicht melden, als fehlgeschlagen angesehen und es wird erneut versucht. | Zeitraum | 
| resourceRole | Die IAM-Rolle, die zur Erstellung des Amazon EMR-Clusters AWS Data Pipeline verwendet wird. Die Standardrolle ist DataPipelineDefaultRole.  | Zeichenfolge | 
| retryDelay | Die Zeitüberschreitungsdauer zwischen zwei Wiederholungsversuchen. | Zeitraum | 
| role | Die IAM-Rolle wurde an Amazon EMR übergeben, um EC2-Knoten zu erstellen. | Zeichenfolge | 
| runsOn | Dieses Feld ist für dieses Objekt nicht zulässig. | Referenzobjekt, z. B. "runsOn":\$1"ref":"myResourceId"\$1 | 
| Sicherheitskonfiguration | Die ID der EMR-Sicherheitskonfiguration, die auf den Cluster angewendet wird. Dieser Parameter gilt nur für Amazon EMR Version 4.8.0 und höher. | Zeichenfolge | 
| serviceAccessSecurityGroupId | Die ID für die Sicherheitsgruppe für den Servicezugriff des Amazon EMR-Clusters.  | Zeichenfolge. Sie hat das Format sg-01XXXX6a, z. B. sg-1234abcd. | 
| scheduleType | Mit dem Zeitplantyp können Sie angeben, ob die Objekte in Ihrer Pipeline-Definition am Anfang des Intervalls oder am Ende des Intervalls geplant werden sollen. Werte sind cron, ondemand und timeseries. Die timeseries-Planung bedeutet, dass Instances am Ende jedes Intervalls geplant sind. Die cron-Planung bedeutet, dass Instances am Anfang jedes Intervalls geplant sind. Ein ondemand-Zeitplan ermöglicht es Ihnen, eine Pipeline einmal pro Aktivierung auszuführen. Sie müssen die Pipeline nicht klonen oder neu erstellen, um sie erneut auszuführen. Wenn Sie einen ondemand-Zeitplan verwenden, muss er im Standardobjekt angegeben werden und der einzige für die Objekte in der Pipeline angegebene scheduleType sein. Um ondemand-Pipelines zu verwenden, rufen Sie einfach den ActivatePipeline-Vorgang für jeden nachfolgenden Lauf auf.  | Aufzählung | 
| subnetId | Die ID des Subnetzes, in dem der Amazon EMR-Cluster gestartet werden soll. | Zeichenfolge | 
| supportedProducts | Ein Parameter, der Software von Drittanbietern auf einem Amazon EMR-Cluster installiert, z. B. eine Drittanbieter-Distribution von Hadoop. | Zeichenfolge | 
| taskInstanceBidPreis | Der maximale Spot-Preis, den Sie für EC2-Instances zu zahlen bereit sind. Geben Sie eine Dezimalzahl von 0 bis 20,00 ein. Angegeben in USD. Wenn ein Angebotspreis angegeben ist, verwendet Amazon EMR Spot-Instances für die Instance-Gruppe. | Zeichenfolge | 
| taskInstanceCount | Die Anzahl der Task-Knoten, die für den Amazon EMR-Cluster verwendet werden sollen. | Ganzzahl | 
| taskInstanceType | Der Typ der Amazon EC2 EC2-Instance, die für Task-Knoten verwendet werden soll. | Zeichenfolge | 
| taskGroupConfiguration | Die Konfiguration für die Amazon EMR-Cluster-Task-Instance-Gruppe. Dieser Parameter gilt nur für Amazon EMR Version 4.0 und höher.  | Referenzobjekt, z. B. “configuration”: \$1“ref”: “myEmrConfigurationId”\$1 | 
| taskEbsConfiguration | Die Konfiguration für Amazon EBS-Volumes, die an jeden der Task-Knoten in der Aufgabengruppe im Amazon EMR-Cluster angehängt werden. Weitere Informationen finden Sie unter [Instance-Typen, die die EBS-Optimierung Support](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/EBSOptimized.html) im Amazon EC2 EC2-Benutzerhandbuch. | Referenzobjekt, z. B. “taskEbsConfiguration”: \$1“ref”: “myEbsConfiguration”\$1 | 
| terminateAfter | Die Zeitspanne in Stunden, nach der die Ressource beendet wird. | Ganzzahl | 
| VolumeSpecification |   Die Amazon EBS-Volumenspezifikationen, wie Volumetyp, IOPS und Größe in Gigabytes (GiB), die für das Amazon EBS-Volume angefordert werden, das an eine Amazon EC2-Instance im Amazon EMR-Cluster angehängt ist. Der Knoten kann ein Core-, Master- oder Aufgabenknoten sein.  `VolumeSpecification` enthält: [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/datapipeline/latest/DeveloperGuide/dp-object-emrcluster.html)  | Referenzobjekt, z. B. “VolumeSpecification”: \$1“ref”: “myVolumeSpecification”\$1 | 
| useOnDemandOnLastAttempt | Dieses Feld bestimmt, ob beim letzten Versuch, eine Ressource anzufordern, eine On-Demand-Instance statt einer Spot-Instance angefordert wird. Auf diese Weise wird sichergestellt, dass wenn die vorherigen Versuche fehlgeschlagen sind, der letzte Versuch nicht unterbrochen wird.  | Boolesch | 
| workerGroup | Dieses Feld ist bei diesem Objekt nicht zulässig. | Zeichenfolge | 

 


****  

| Laufzeitfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @activeInstances | Liste der aktuell geplanten aktiven Instance-Objekte. | Referenzobjekt, zum Beispiel „ActiveInstances“: \$1"ref“:“ Id "\$1 myRunnableObject | 
| @actualEndTime | Zeitpunkt, zu dem die Ausführung dieses Objekts abgeschlossen wurde. | DateTime | 
| @actualStartTime | Zeitpunkt, zu dem die Ausführung dieses Objekts gestartet wurde. | DateTime | 
| cancellationReason | Die cancellationReason, wenn dieses Objekt storniert wurde. | Zeichenfolge | 
| @cascadeFailedOn | Beschreibung der Zuständigkeitskette, bei der das Objekt fehlgeschlagen ist. | Referenzobjekt, zum Beispiel "cascadeFailedOn„: \$1" ref“:“ myRunnableObject Id "\$1 | 
| emrStepLog | Schrittprotokolle sind nur bei Amazon EMR-Aktivitätsversuchen verfügbar. | Zeichenfolge | 
| errorId | Die Fehler-ID, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorMessage | Die Fehlermeldung, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorStackTrace | Die Fehler-Stack-Ablaufverfolgung., wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| @failureReason | Der Grund für den Ressourcenfehler. | Zeichenfolge | 
| @finishedTime | Der Zeitpunkt, zu der dieses Objekt seine Ausführung beendet hat. | DateTime | 
| hadoopJobLog | Hadoop-Jobprotokolle sind bei Versuchen für Amazon EMR-Aktivitäten verfügbar. | Zeichenfolge | 
| @healthStatus | Der Integritätsstatus des Objekts, der Erfolg oder Misserfolg der letzten Objekt-Instance widerspiegelt, die einen beendeten Zustand erreicht hat. | Zeichenfolge | 
| @healthStatusFromInstanceId | ID des Objekts der letzten Instance, das einen beendeten Zustand erreicht hat. | Zeichenfolge | 
| @ Zeit healthStatusUpdated | Zeitpunkt, zu dem der Servicestatus beim letzten Mal aktualisiert wurde. | DateTime | 
| hostname | Der Hostname des Clients, der den Aufgabenversuch aufnimmt. | Zeichenfolge | 
| @lastDeactivatedTime | Zeitpunkt, zu dem dieses Objekt zuletzt deaktiviert wurde. | DateTime | 
| @ latestCompletedRun Zeit | Zeitpunkt des letzten Laufs, für den die Ausführung abgeschlossen wurde. | DateTime | 
| @latestRunTime | Zeitpunkt des letzten Laufs, für den die Ausführung geplant war. | DateTime | 
| @nextRunTime | Zeitpunkt des Laufs, der als nächstes geplant werden soll | DateTime | 
| reportProgressTime | Der letzte Zeitpunkt, an dem die Remote-Aktivität einen Fortschritt gemeldet hat. | DateTime | 
| @scheduledEndTime | Endzeit für Objekt einplanen. | DateTime | 
| @scheduledStartTime | Startzeit für Objekt einplanen. | DateTime | 
| @Status | Der Status des Objekts. | Zeichenfolge | 
| @Version | Pipeline-Version, mit der das Objekt erstellt wurde. | Zeichenfolge | 
| @waitingOn | Beschreibung der Liste der Abhängigkeiten, auf die dieses Objekt wartet. | Referenzobjekt, zum Beispiel „WaitingOn“: \$1"ref“:“ myRunnableObject Id "\$1 | 

 


****  

| Systemfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @error | Fehler mit einer Beschreibung des falsch formatierten Objekts. | Zeichenfolge | 
| @pipelineId | ID der Pipeline, zu der dieses Objekt gehört. | Zeichenfolge | 
| @sphere | Die Position eines Objekts im Lebenszyklus. Komponentenobjekte ergeben Instance-Objekte, die Versuchsobjekte ausführen. | Zeichenfolge | 

# Beispiele
<a name="emrcluster-example"></a>

Es folgen Beispiele für diesen Objekttyp.

**Topics**
+ [Starten Sie einen Amazon EMR-Cluster mit HadoopVersion](emrcluster-example-launch.md)
+ [Starten Sie einen Amazon EMR-Cluster mit dem Release-Label emr-4.x oder höher](emrcluster-example-release-label.md)
+ [Installieren Sie zusätzliche Software auf Ihrem Amazon EMR-Cluster](emrcluster-example-install-software.md)
+ [Deaktivieren der serverseitigen Verschlüsselung auf 3.x-Versionen](emrcluster-example1-disable-encryption.md)
+ [Deaktivieren der serverseitigen Verschlüsselung auf 4.x-Versionen](emrcluster-example2-disable-encryption.md)
+ [Konfigurieren Sie Hadoop KMS ACLs und erstellen Sie Verschlüsselungszonen in HDFS](emrcluster-example-hadoop-kms.md)
+ [Festlegen benutzerdefinierter IAM-Rollen](emrcluster-example-custom-iam-roles.md)
+ [Verwenden Sie die EmrCluster Ressource im AWS SDK for Java](emrcluster-example-java.md)
+ [Einen Amazon EMR-Cluster in einem privaten Subnetz konfigurieren](emrcluster-example-private-subnet.md)
+ [EBS-Volumes zu Cluster-Knoten hinzufügen](emrcluster-example-ebs.md)

# Starten Sie einen Amazon EMR-Cluster mit HadoopVersion
<a name="emrcluster-example-launch"></a>

**Example**  <a name="example1"></a>
Im folgenden Beispiel wird ein Amazon EMR-Cluster mit AMI-Version 1.0 und Hadoop 0.20 gestartet.  

```
{
  "id" : "MyEmrCluster",
  "type" : "EmrCluster",
  "hadoopVersion" : "0.20",
  "keyPair" : "my-key-pair",
  "masterInstanceType" : "m3.xlarge",
  "coreInstanceType" : "m3.xlarge",
  "coreInstanceCount" : "10",
  "taskInstanceType" : "m3.xlarge",
  "taskInstanceCount": "10",
  "bootstrapAction" : ["s3://Region.elasticmapreduce/bootstrap-actions/configure-hadoop,arg1,arg2,arg3","s3://Region.elasticmapreduce/bootstrap-actions/configure-hadoop/configure-other-stuff,arg1,arg2"]
}
```

# Starten Sie einen Amazon EMR-Cluster mit dem Release-Label emr-4.x oder höher
<a name="emrcluster-example-release-label"></a>

**Example**  
Im folgenden Beispiel wird ein Amazon EMR-Cluster mit dem neueren `releaseLabel` Feld gestartet:  

```
{
  "id" : "MyEmrCluster",
  "type" : "EmrCluster",
  "keyPair" : "my-key-pair",
  "masterInstanceType" : "m3.xlarge",
  "coreInstanceType" : "m3.xlarge",
  "coreInstanceCount" : "10",
  "taskInstanceType" : "m3.xlarge",
  "taskInstanceCount": "10",
  "releaseLabel": "emr-4.1.0",
  "applications": ["spark", "hive", "pig"],
  "configuration": {"ref":"myConfiguration"}  
}
```

# Installieren Sie zusätzliche Software auf Ihrem Amazon EMR-Cluster
<a name="emrcluster-example-install-software"></a>

**Example**  <a name="example2"></a>
`EmrCluster`stellt das `supportedProducts` Feld bereit, das Drittanbieter-Software auf einem Amazon EMR-Cluster installiert. Damit können Sie beispielsweise eine benutzerdefinierte Distribution von Hadoop wie MapR installieren. Er akzeptiert eine durch Kommas getrennte Liste von Argumenten. Die Drittanbieter-Software kann diese Argumente lesen und darauf reagieren. Das folgende Beispiel zeigt, wie Sie mit dem Feld `supportedProducts` von `EmrCluster` einen benutzerdefinierten Cluster der MapR M3-Edition mit Karmasphere Analytics erstellen und ein `EmrActivity`-Objekt darauf ausführen.  

```
{
    "id": "MyEmrActivity",
    "type": "EmrActivity",
    "schedule": {"ref": "ResourcePeriod"},
    "runsOn": {"ref": "MyEmrCluster"},
    "postStepCommand": "echo Ending job >> /mnt/var/log/stepCommand.txt",    
    "preStepCommand": "echo Starting job > /mnt/var/log/stepCommand.txt",
    "step": "/home/hadoop/contrib/streaming/hadoop-streaming.jar,-input,s3n://elasticmapreduce/samples/wordcount/input,-output, \
     hdfs:///output32113/,-mapper,s3n://elasticmapreduce/samples/wordcount/wordSplitter.py,-reducer,aggregate"
  },
  {    
    "id": "MyEmrCluster",
    "type": "EmrCluster",
    "schedule": {"ref": "ResourcePeriod"},
    "supportedProducts": ["mapr,--edition,m3,--version,1.2,--key1,value1","karmasphere-enterprise-utility"],
    "masterInstanceType": "m3.xlarge",
    "taskInstanceType": "m3.xlarge"
}
```

# Deaktivieren der serverseitigen Verschlüsselung auf 3.x-Versionen
<a name="emrcluster-example1-disable-encryption"></a>

**Example**  <a name="example3"></a>
Eine `EmrCluster` Aktivität mit einer Hadoop-Version 2.x, erstellt von, AWS Data Pipeline aktiviert standardmäßig serverseitige Verschlüsselung. Wenn Sie die serverseitige Verschlüsselung deaktivieren möchten, müssen Sie eine Bootstrap-Aktion in der Cluster-Objektdefinition festlegen.  
Das folgende Beispiel erstellt eine `EmrCluster`-Aktivität, bei der die serverseitige Verschlüsselung deaktiviert ist:  

```
{  
   "id":"NoSSEEmrCluster",
   "type":"EmrCluster",
   "hadoopVersion":"2.x",
   "keyPair":"my-key-pair",
   "masterInstanceType":"m3.xlarge",
   "coreInstanceType":"m3.large",
   "coreInstanceCount":"10",
   "taskInstanceType":"m3.large",
   "taskInstanceCount":"10",
   "bootstrapAction":["s3://Region.elasticmapreduce/bootstrap-actions/configure-hadoop,-e, fs.s3.enableServerSideEncryption=false"]
}
```

# Deaktivieren der serverseitigen Verschlüsselung auf 4.x-Versionen
<a name="emrcluster-example2-disable-encryption"></a>

**Example**  <a name="example4"></a>
Sie müssen die serverseitige Verschlüsselung mit einem `EmrConfiguration`-Objekt deaktivieren.  
Das folgende Beispiel erstellt eine `EmrCluster`-Aktivität, bei der die serverseitige Verschlüsselung deaktiviert ist:  

```
   {
      "name": "ReleaseLabelCluster",
      "releaseLabel": "emr-4.1.0",
      "applications": ["spark", "hive", "pig"],
      "id": "myResourceId",
      "type": "EmrCluster",
      "configuration": {
        "ref": "disableSSE"
      }
    },
    {
      "name": "disableSSE",
      "id": "disableSSE",
      "type": "EmrConfiguration",
      "classification": "emrfs-site",
      "property": [{
        "ref": "enableServerSideEncryption"
      }
      ]
    },
    {
      "name": "enableServerSideEncryption",
      "id": "enableServerSideEncryption",
      "type": "Property",
      "key": "fs.s3.enableServerSideEncryption",
      "value": "false"
    }
```

# Konfigurieren Sie Hadoop KMS ACLs und erstellen Sie Verschlüsselungszonen in HDFS
<a name="emrcluster-example-hadoop-kms"></a>

**Example**  <a name="example5"></a>
Die folgenden Objekte werden ACLs für Hadoop KMS erstellt und erstellen Verschlüsselungszonen und entsprechende Verschlüsselungsschlüssel in HDFS:  

```
{
      "name": "kmsAcls",
      "id": "kmsAcls",
      "type": "EmrConfiguration",
      "classification": "hadoop-kms-acls",
      "property": [
        {"ref":"kmsBlacklist"},
        {"ref":"kmsAcl"}
      ]
    },
    {
      "name": "hdfsEncryptionZone",
      "id": "hdfsEncryptionZone",
      "type": "EmrConfiguration",
      "classification": "hdfs-encryption-zones",
      "property": [
        {"ref":"hdfsPath1"},
        {"ref":"hdfsPath2"}
      ]
    },
    {
      "name": "kmsBlacklist",
      "id": "kmsBlacklist",
      "type": "Property",
      "key": "hadoop.kms.blacklist.CREATE",
      "value": "foo,myBannedUser"
    },
    {
      "name": "kmsAcl",
      "id": "kmsAcl",
      "type": "Property",
      "key": "hadoop.kms.acl.ROLLOVER",
      "value": "myAllowedUser"
    },
    {
      "name": "hdfsPath1",
      "id": "hdfsPath1",
      "type": "Property",
      "key": "/myHDFSPath1",
      "value": "path1_key"
    },
    {
      "name": "hdfsPath2",
      "id": "hdfsPath2",
      "type": "Property",
      "key": "/myHDFSPath2",
      "value": "path2_key"
    }
```

# Festlegen benutzerdefinierter IAM-Rollen
<a name="emrcluster-example-custom-iam-roles"></a>

**Example**  <a name="example6"></a>
Wird standardmäßig `DataPipelineDefaultRole` als Amazon EMR-Servicerolle und `DataPipelineDefaultResourceRole` als Amazon EC2 EC2-Instance-Profil AWS Data Pipeline übergeben, um Ressourcen in Ihrem Namen zu erstellen. Sie können jedoch eine benutzerdefinierte Amazon EMR-Servicerolle und ein benutzerdefiniertes Instance-Profil erstellen und diese stattdessen verwenden. AWS Data Pipeline sollte über ausreichende Berechtigungen verfügen, um Cluster mithilfe der benutzerdefinierten Rolle zu erstellen, und Sie müssen sie AWS Data Pipeline als vertrauenswürdige Entität hinzufügen.  
Das folgende Beispielobjekt spezifiziert benutzerdefinierte Rollen für den Amazon EMR-Cluster:  

```
{  
   "id":"MyEmrCluster",
   "type":"EmrCluster",
   "hadoopVersion":"2.x",
   "keyPair":"my-key-pair",
   "masterInstanceType":"m3.xlarge",
   "coreInstanceType":"m3.large",
   "coreInstanceCount":"10",
   "taskInstanceType":"m3.large",
   "taskInstanceCount":"10",
   "role":"emrServiceRole",
   "resourceRole":"emrInstanceProfile"
}
```

# Verwenden Sie die EmrCluster Ressource im AWS SDK for Java
<a name="emrcluster-example-java"></a>

**Example**  <a name="example7"></a>
Das folgende Beispiel zeigt, wie Sie mit einem `EmrCluster` und `EmrActivity` einen Amazon EMR 4.x-Cluster erstellen, um einen Spark-Schritt mithilfe des Java-SDK auszuführen:  

```
public class dataPipelineEmr4 {

  public static void main(String[] args) {
    
	AWSCredentials credentials = null;
	credentials = new ProfileCredentialsProvider("/path/to/AwsCredentials.properties","default").getCredentials();
	DataPipelineClient dp = new DataPipelineClient(credentials);
	CreatePipelineRequest createPipeline = new CreatePipelineRequest().withName("EMR4SDK").withUniqueId("unique");
	CreatePipelineResult createPipelineResult = dp.createPipeline(createPipeline);
	String pipelineId = createPipelineResult.getPipelineId();
    
	PipelineObject emrCluster = new PipelineObject()
	    .withName("EmrClusterObj")
	    .withId("EmrClusterObj")
	    .withFields(
			new Field().withKey("releaseLabel").withStringValue("emr-4.1.0"),
			new Field().withKey("coreInstanceCount").withStringValue("3"),
			new Field().withKey("applications").withStringValue("spark"),
			new Field().withKey("applications").withStringValue("Presto-Sandbox"),
			new Field().withKey("type").withStringValue("EmrCluster"),
			new Field().withKey("keyPair").withStringValue("myKeyName"),
			new Field().withKey("masterInstanceType").withStringValue("m3.xlarge"),
			new Field().withKey("coreInstanceType").withStringValue("m3.xlarge")        
			);
  
	PipelineObject emrActivity = new PipelineObject()
	    .withName("EmrActivityObj")
	    .withId("EmrActivityObj")
	    .withFields(
			new Field().withKey("step").withStringValue("command-runner.jar,spark-submit,--executor-memory,1g,--class,org.apache.spark.examples.SparkPi,/usr/lib/spark/lib/spark-examples.jar,10"),
			new Field().withKey("runsOn").withRefValue("EmrClusterObj"),
			new Field().withKey("type").withStringValue("EmrActivity")
			);
      
	PipelineObject schedule = new PipelineObject()
	    .withName("Every 15 Minutes")
	    .withId("DefaultSchedule")
	    .withFields(
			new Field().withKey("type").withStringValue("Schedule"),
			new Field().withKey("period").withStringValue("15 Minutes"),
			new Field().withKey("startAt").withStringValue("FIRST_ACTIVATION_DATE_TIME")
			);
      
	PipelineObject defaultObject = new PipelineObject()
	    .withName("Default")
	    .withId("Default")
	    .withFields(
			new Field().withKey("failureAndRerunMode").withStringValue("CASCADE"),
			new Field().withKey("schedule").withRefValue("DefaultSchedule"),
			new Field().withKey("resourceRole").withStringValue("DataPipelineDefaultResourceRole"),
			new Field().withKey("role").withStringValue("DataPipelineDefaultRole"),
			new Field().withKey("pipelineLogUri").withStringValue("s3://myLogUri"),
			new Field().withKey("scheduleType").withStringValue("cron")
			);     
      
	List<PipelineObject> pipelineObjects = new ArrayList<PipelineObject>();
    
	pipelineObjects.add(emrActivity);
	pipelineObjects.add(emrCluster);
	pipelineObjects.add(defaultObject);
	pipelineObjects.add(schedule);
    
	PutPipelineDefinitionRequest putPipelineDefintion = new PutPipelineDefinitionRequest()
	    .withPipelineId(pipelineId)
	    .withPipelineObjects(pipelineObjects);
    
	PutPipelineDefinitionResult putPipelineResult = dp.putPipelineDefinition(putPipelineDefintion);
	System.out.println(putPipelineResult);
    
	ActivatePipelineRequest activatePipelineReq = new ActivatePipelineRequest()
	    .withPipelineId(pipelineId);
	ActivatePipelineResult activatePipelineRes = dp.activatePipeline(activatePipelineReq);
	
      System.out.println(activatePipelineRes);
      System.out.println(pipelineId);
    
    }

}
```

# Einen Amazon EMR-Cluster in einem privaten Subnetz konfigurieren
<a name="emrcluster-example-private-subnet"></a>

**Example**  <a name="example8"></a>
Dieses Beispiel enthält eine Konfiguration, mit der der Cluster in einem privaten Subnetz in einer VPC gestartet wird. Weitere Informationen finden Sie unter [Starten von Amazon EMR-Clustern in einer VPC](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-vpc-launching-job-flows.html) im *Amazon EMR* Management Guide. Diese Konfiguration ist optional. Sie können sie in einer beliebigen Pipeline verwenden, die ein `EmrCluster`-Objekt nutzt.  
Um einen Amazon EMR-Cluster in einem privaten Subnetz zu starten, geben Sie`SubnetId`, `emrManagedMasterSecurityGroupId``emrManagedSlaveSecurityGroupId`, und `serviceAccessSecurityGroupId` in Ihrer `EmrCluster` Konfiguration an.  

```
{
  "objects": [
    {
      "output": {
        "ref": "S3BackupLocation"
      },
      "input": {
        "ref": "DDBSourceTable"
      },
      "maximumRetries": "2",
      "name": "TableBackupActivity",
      "step": "s3://dynamodb-emr-#{myDDBRegion}/emr-ddb-storage-handler/2.1.0/emr-ddb-2.1.0.jar,org.apache.hadoop.dynamodb.tools.DynamoDbExport,#{output.directoryPath},#{input.tableName},#{input.readThroughputPercent}",
      "id": "TableBackupActivity",
      "runsOn": {
        "ref": "EmrClusterForBackup"
      },
      "type": "EmrActivity",
      "resizeClusterBeforeRunning": "false"
    },
    {
      "readThroughputPercent": "#{myDDBReadThroughputRatio}",
      "name": "DDBSourceTable",
      "id": "DDBSourceTable",
      "type": "DynamoDBDataNode",
      "tableName": "#{myDDBTableName}"
    },
    {
      "directoryPath": "#{myOutputS3Loc}/#{format(@scheduledStartTime, 'YYYY-MM-dd-HH-mm-ss')}",
      "name": "S3BackupLocation",
      "id": "S3BackupLocation",
      "type": "S3DataNode"
    },
    {
      "name": "EmrClusterForBackup",
      "coreInstanceCount": "1",
      "taskInstanceCount": "1",
      "taskInstanceType": "m4.xlarge",
      "coreInstanceType": "m4.xlarge",
      "releaseLabel": "emr-4.7.0",
      "masterInstanceType": "m4.xlarge",
      "id": "EmrClusterForBackup",
      "subnetId": "#{mySubnetId}",
      "emrManagedMasterSecurityGroupId": "#{myMasterSecurityGroup}",
      "emrManagedSlaveSecurityGroupId": "#{mySlaveSecurityGroup}",
      "serviceAccessSecurityGroupId": "#{myServiceAccessSecurityGroup}",
      "region": "#{myDDBRegion}",
      "type": "EmrCluster",
      "keyPair": "user-key-pair"
    },
    {
      "failureAndRerunMode": "CASCADE",
      "resourceRole": "DataPipelineDefaultResourceRole",
      "role": "DataPipelineDefaultRole",
      "pipelineLogUri": "#{myPipelineLogUri}",
      "scheduleType": "ONDEMAND",
      "name": "Default",
      "id": "Default"
    }
  ],
  "parameters": [
    {
      "description": "Output S3 folder",
      "id": "myOutputS3Loc",
      "type": "AWS::S3::ObjectKey"
    },
    {
      "description": "Source DynamoDB table name",
      "id": "myDDBTableName",
      "type": "String"
    },
    {
      "default": "0.25",
      "watermark": "Enter value between 0.1-1.0",
      "description": "DynamoDB read throughput ratio",
      "id": "myDDBReadThroughputRatio",
      "type": "Double"
    },
    {
      "default": "us-east-1",
      "watermark": "us-east-1",
      "description": "Region of the DynamoDB table",
      "id": "myDDBRegion",
      "type": "String"
    }
  ],
  "values": {
     "myDDBRegion": "us-east-1",
      "myDDBTableName": "ddb_table",
      "myDDBReadThroughputRatio": "0.25",
      "myOutputS3Loc": "s3://s3_path",
      "mySubnetId": "subnet_id",
      "myServiceAccessSecurityGroup":  "service access security group",
      "mySlaveSecurityGroup": "slave security group",
      "myMasterSecurityGroup": "master security group",
      "myPipelineLogUri": "s3://s3_path"
  }
}
```

# EBS-Volumes zu Cluster-Knoten hinzufügen
<a name="emrcluster-example-ebs"></a>

**Example**  <a name="example8"></a>
Sie können EBS-Volumes an beliebige Knoten im EMR-Cluster innerhalb der Pipeline anfügen. Verwenden Sie zum Anfügen von EBS-Volumes an Knoten `coreEbsConfiguration`, `masterEbsConfiguration` und `TaskEbsConfiguration` in Ihrer `EmrCluster`-Konfiguration.   
Dieses Beispiel für den Amazon EMR-Cluster verwendet Amazon EBS-Volumes für seine Master-, Task- und Core-Knoten. Weitere Informationen finden Sie unter [Amazon EBS-Volumes in Amazon EMR](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-plan-storage.html) im *Amazon EMR* Management Guide.  
Diese Konfigurationen sind optional. Sie können sie in beliebigen Pipelines verwenden, die ein `EmrCluster`-Objekt nutzen.  
Klicken Sie in der Pipeline auf die `EmrCluster`-Objektkonfiguration und dann auf **Master EBS Configuration** (Master-EBS-Konfiguration), **Core EBS Configuration** (Core-EBS-Konfiguration) oder **Task EBS Configuration** (Aufgaben-EBS-Konfiguration) und geben Sie die Konfigurationsdetails wie im folgenden Beispiel ein.  

```
{
  "objects": [
    {
      "output": {
        "ref": "S3BackupLocation"
      },
      "input": {
        "ref": "DDBSourceTable"
      },
      "maximumRetries": "2",
      "name": "TableBackupActivity",
      "step": "s3://dynamodb-emr-#{myDDBRegion}/emr-ddb-storage-handler/2.1.0/emr-ddb-2.1.0.jar,org.apache.hadoop.dynamodb.tools.DynamoDbExport,#{output.directoryPath},#{input.tableName},#{input.readThroughputPercent}",
      "id": "TableBackupActivity",
      "runsOn": {
        "ref": "EmrClusterForBackup"
      },
      "type": "EmrActivity",
      "resizeClusterBeforeRunning": "false"
    },
    {
      "readThroughputPercent": "#{myDDBReadThroughputRatio}",
      "name": "DDBSourceTable",
      "id": "DDBSourceTable",
      "type": "DynamoDBDataNode",
      "tableName": "#{myDDBTableName}"
    },
    {
      "directoryPath": "#{myOutputS3Loc}/#{format(@scheduledStartTime, 'YYYY-MM-dd-HH-mm-ss')}",
      "name": "S3BackupLocation",
      "id": "S3BackupLocation",
      "type": "S3DataNode"
    },
    {
      "name": "EmrClusterForBackup",
      "coreInstanceCount": "1",
      "taskInstanceCount": "1",
      "taskInstanceType": "m4.xlarge",
      "coreInstanceType": "m4.xlarge",
      "releaseLabel": "emr-4.7.0",
      "masterInstanceType": "m4.xlarge",
      "id": "EmrClusterForBackup",
      "subnetId": "#{mySubnetId}",
      "emrManagedMasterSecurityGroupId": "#{myMasterSecurityGroup}",
      "emrManagedSlaveSecurityGroupId": "#{mySlaveSecurityGroup}",
      "region": "#{myDDBRegion}",
      "type": "EmrCluster",
      "coreEbsConfiguration": {
        "ref": "EBSConfiguration"
      },
      "masterEbsConfiguration": {
        "ref": "EBSConfiguration"
      },
      "taskEbsConfiguration": {
        "ref": "EBSConfiguration"
      },
      "keyPair": "user-key-pair"
    },
    {
       "name": "EBSConfiguration",
        "id": "EBSConfiguration",
        "ebsOptimized": "true",
        "ebsBlockDeviceConfig" : [
            { "ref": "EbsBlockDeviceConfig" }
        ],
        "type": "EbsConfiguration"
    },
    {
        "name": "EbsBlockDeviceConfig",
        "id": "EbsBlockDeviceConfig",
        "type": "EbsBlockDeviceConfig",
        "volumesPerInstance" : "2",
        "volumeSpecification" : {
            "ref": "VolumeSpecification"
        }
    },
    {
      "name": "VolumeSpecification",
      "id": "VolumeSpecification",
      "type": "VolumeSpecification",
      "sizeInGB": "500",
      "volumeType": "io1",
      "iops": "1000"
    },
    {
      "failureAndRerunMode": "CASCADE",
      "resourceRole": "DataPipelineDefaultResourceRole",
      "role": "DataPipelineDefaultRole",
      "pipelineLogUri": "#{myPipelineLogUri}",
      "scheduleType": "ONDEMAND",
      "name": "Default",
      "id": "Default"
    }
  ],
  "parameters": [
    {
      "description": "Output S3 folder",
      "id": "myOutputS3Loc",
      "type": "AWS::S3::ObjectKey"
    },
    {
      "description": "Source DynamoDB table name",
      "id": "myDDBTableName",
      "type": "String"
    },
    {
      "default": "0.25",
      "watermark": "Enter value between 0.1-1.0",
      "description": "DynamoDB read throughput ratio",
      "id": "myDDBReadThroughputRatio",
      "type": "Double"
    },
    {
      "default": "us-east-1",
      "watermark": "us-east-1",
      "description": "Region of the DynamoDB table",
      "id": "myDDBRegion",
      "type": "String"
    }
  ],
  "values": {
     "myDDBRegion": "us-east-1",
      "myDDBTableName": "ddb_table",
      "myDDBReadThroughputRatio": "0.25",
      "myOutputS3Loc": "s3://s3_path",
      "mySubnetId": "subnet_id",
      "mySlaveSecurityGroup": "slave security group",
      "myMasterSecurityGroup": "master security group",
      "myPipelineLogUri": "s3://s3_path"
  }
}
```

## Weitere Informationen finden Sie unter:
<a name="emrcluster-seealso"></a>
+ [EmrActivity](dp-object-emractivity.md)

# HttpProxy
<a name="dp-object-httpproxy"></a>

HttpProxy ermöglicht es Ihnen, Ihren eigenen Proxy zu konfigurieren und Task Runner über ihn auf den AWS Data Pipeline Dienst zugreifen zu lassen. Es ist nicht erforderlich, einen ausgeführten TaskRunner mit diesen Informationen zu konfigurieren.

## Beispiel für HttpProxy ein TaskRunner
<a name="example9"></a>

Die folgenden Pipeline-Definition zeigt ein `HttpProxy`-Objekt:

```
{
  "objects": [
    {
      "schedule": {
        "ref": "Once"
      },
      "pipelineLogUri": "s3://myDPLogUri/path",
      "name": "Default",
      "id": "Default"
    },
    {
      "name": "test_proxy",
      "hostname": "hostname",
      "port": "port",
      "username": "username",
      "*password": "password",
      "windowsDomain": "windowsDomain",
      "type": "HttpProxy",
      "id": "test_proxy",
    },
    {
      "name": "ShellCommand",
      "id": "ShellCommand",
      "runsOn": {
        "ref": "Resource"
      },
      "type": "ShellCommandActivity",
      "command": "echo 'hello world' "
    },
    {
      "period": "1 day",
      "startDateTime": "2013-03-09T00:00:00",
      "name": "Once",
      "id": "Once",
      "endDateTime": "2013-03-10T00:00:00",
      "type": "Schedule"
    },
    {
      "role": "dataPipelineRole",
      "httpProxy": {
        "ref": "test_proxy"
      },
      "actionOnResourceFailure": "retrynone",
      "maximumRetries": "0",
      "type": "Ec2Resource",
      "terminateAfter": "10 minutes",
      "resourceRole": "resourceRole",
      "name": "Resource",
      "actionOnTaskFailure": "terminate",
      "securityGroups": "securityGroups",
      "keyPair": "keyPair",
      "id": "Resource",
      "region": "us-east-1"
    }
  ],
  "parameters": []
}
```

## Syntax
<a name="httpproxy-slots"></a>


****  

| Pflichtfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| hostname | Der Host des Proxys, über den Clients eine Verbindung zu AWS-Services herstellen. | Zeichenfolge | 
| port | Port des Proxy-Hosts, den die Clients verwenden, um eine Verbindung zu AWS-Services herzustellen. | Zeichenfolge | 

 


****  

| Optionale Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| übergeordneter | Übergeordnetes Objekt des aktuellen Objekts, aus dem Slots übernommen werden. | Referenzobjekt, z. B. „parent“: \$1"ref“:“ myBaseObject Id "\$1 | 
| \$1Passwort | Passwort für den Proxy. | Zeichenfolge | 
| s3 NoProxy | Deaktiviert den HTTP-Proxy, wenn eine Verbindung zu Amazon S3 hergestellt wird | Boolesch | 
| username | Benutzername für den Proxy. | Zeichenfolge | 
| windowsDomain | Der Windows-Domänenname für NTLM Proxy. | Zeichenfolge | 
| windowsWorkgroup | Der Windows-Arbeitsgruppenname für NTLM Proxy. | Zeichenfolge | 

 


****  

| Laufzeitfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @Version | Pipeline-Version, mit der das Objekt erstellt wurde. | Zeichenfolge | 

 


****  

| Systemfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @error | Fehler mit einer Beschreibung des falsch formatierten Objekts. | Zeichenfolge | 
| @pipelineId | Id der Pipeline, zu der dieses Objekt gehört. | Zeichenfolge | 
| @sphere | Die Kugel eines Objekts bezeichnet seinen Platz im Lebenszyklus: Komponentenobjekte ergeben Instance-Objekte, die Versuchsobjekte ausführen. | Zeichenfolge | 

# Vorbedingungen
<a name="dp-object-preconditions"></a>

Im Folgenden sind die AWS Data Pipeline Vorbedingungsobjekte aufgeführt:

**Topics**
+ [Dynamo DBData ist vorhanden](dp-dynamodbdataexists.md)
+ [Dynamo ist vorhanden DBTable](dp-dynamodbtableexists.md)
+ [Vorhanden](dp-object-exists.md)
+ [S3 KeyExists](dp-object-S3KeyExists.md)
+ [S3 PrefixNotEmpty](dp-object-s3prefixnotempty.md)
+ [ShellCommandPrecondition](dp-object-shellcommandprecondition.md)

# Dynamo DBData ist vorhanden
<a name="dp-dynamodbdataexists"></a>

 Eine Vorbedingung, um zu überprüfen, ob Daten in einer DynamoDB-Tabelle vorhanden sind. 

## Syntax
<a name="dp-dynamodbdataexists-syntax"></a>


****  

| Pflichtfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| role | Legt die Rolle für die Ausführung der Vorbedingung fest. | Zeichenfolge | 
| tableName | Die zu prüfende DynamoDB-Tabelle. | Zeichenfolge | 

 


****  

| Optionale Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| attemptStatus | Zuletzt gemeldeter Status von der Remote-Aktivität. | Zeichenfolge | 
| attemptTimeout | Timeout für die Remote-Arbeit abgeschlossen. Wenn diese Option aktiviert ist, kann eine Remote-Aktivität, die nicht innerhalb der festgelegten Startzeit abgeschlossen wird, wiederholt werden. | Zeitraum | 
| failureAndRerunModus | Beschreibt das Verhalten des Konsumentenknotens, wenn Abhängigkeiten fehlschlagen oder erneut ausgeführt werden | Aufzählung | 
| lateAfterTimeout | Die nach dem Start der Pipeline verstrichene Zeit, innerhalb der das Objekt abgeschlossen werden muss. Sie wird nur ausgelöst, wenn der Zeitplantyp nicht auf eingestellt ist. ondemand | Zeitraum | 
| maximumRetries | Maximale Anzahl von Versuchen bei Ausfällen | Ganzzahl | 
| onFail | Eine Aktion, die ausgeführt werden soll, wenn das aktuelle Objekt fehlschlägt. | Referenzobjekt, z. B. „onFail“: \$1"ref“:“ myActionId „\$1 | 
| onLateAction | Aktionen, die ausgelöst werden sollen, wenn ein Objekt noch nicht geplant oder noch nicht abgeschlossen wurde. | Referenzobjekt, z. B. "onLateAction„: \$1" ref“:“ myActionId „\$1 | 
| onSuccess | Eine Aktion, die ausgeführt wird, wenn das aktuelle Objekt erfolgreich ist. | Referenzobjekt, z. B. „onSuccess“: \$1"ref“:“ myActionId „\$1 | 
| übergeordneter | Übergeordnetes Objekt des aktuellen Objekts, aus dem Slots übernommen werden. | Referenzobjekt, z. B. „parent“: \$1"ref“:“ myBaseObject Id "\$1 | 
| preconditionTimeout | Der Zeitraum ab dem die Vorbedingung als fehlgeschlagen gekennzeichnet ist, wenn sie noch nicht erfüllt ist | Zeitraum | 
| reportProgressTimeout | Timeout für aufeinanderfolgende Aufrufe von Remote-Arbeit in reportProgress. Wenn diese Option aktiviert ist, werden Remote-Aktivitäten, die den Fortschritt für den angegebenen Zeitraum nicht melden, als fehlgeschlagen angesehen und es wird erneut versucht. | Zeitraum | 
| retryDelay | Die Zeitüberschreitungsdauer zwischen zwei Wiederholungsversuchen. | Zeitraum | 

 


****  

| Laufzeitfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @activeInstances | Liste der aktuell geplanten aktiven Instance-Objekte. | Referenzobjekt, z. B. „activeInstances“: \$1"ref“:“ myRunnableObject Id "\$1 | 
| @actualEndTime | Zeitpunkt, zu dem die Ausführung dieses Objekts abgeschlossen wurde. | DateTime | 
| @actualStartTime | Zeitpunkt, zu dem die Ausführung dieses Objekts gestartet wurde. | DateTime | 
| cancellationReason | Die cancellationReason, wenn dieses Objekt storniert wurde. | Zeichenfolge | 
| @cascadeFailedOn | Beschreibung der Zuständigkeitskette, bei der das Objekt fehlgeschlagen ist. | Referenzobjekt, z. B. "cascadeFailedOn„: \$1" ref“:“ myRunnableObject Id "\$1 | 
| currentRetryCount | Anzahl, wie oft die Vorbedingung in diesem Versuch probiert wurde. | Zeichenfolge | 
| emrStepLog | EMR-Schrittprotokolle nur bei EMR-Aktivitätsversuchen verfügbar | Zeichenfolge | 
| errorId | Die errorId, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorMessage | Die errorMessage, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorStackTrace | Die Fehler-Stack-Ablaufverfolgung., wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| hadoopJobLog | Hadoop-Jobprotokolle für Versuche für EMR-basierte Aktivitäten verfügbar. | Zeichenfolge | 
| hostname | Der Hostname des Clients, der den Aufgabenversuch aufnimmt. | Zeichenfolge | 
| lastRetryTime | Das letzte Mal, dass die Vorbedingung in diesem Versuch probiert wurde. | Zeichenfolge | 
| node | Der Knoten, für den diese Vorbedingung ausgeführt wird | Referenzobjekt, z. B. „node“: \$1"ref“:“ myRunnableObject Id "\$1 | 
| reportProgressTime | Der letzte Zeitpunkt, an dem die Remote-Aktivität einen Fortschritt gemeldet hat. | DateTime | 
| @scheduledEndTime | Endzeit für Objekt einplanen. | DateTime | 
| @scheduledStartTime | Startzeit für Objekt einplanen. | DateTime | 
| @Status | Der Status des Objekts. | Zeichenfolge | 
| @Version | Pipeline-Version, mit der das Objekt erstellt wurde. | Zeichenfolge | 
| @waitingOn | Beschreibung der Liste der Abhängigkeiten, auf die dieses Objekt wartet. | Referenzobjekt, z. B. „WaitingOn“: \$1"ref“:“ myRunnableObject Id "\$1 | 

 


****  

| Systemfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @error | Fehler mit einer Beschreibung des falsch formatierten Objekts. | Zeichenfolge | 
| @pipelineId | ID der Pipeline, zu der dieses Objekt gehört | Zeichenfolge | 
| @sphere | Die Kugel eines Objekts bezeichnet seinen Platz im Lebenszyklus: Komponentenobjekte ergeben Instance-Objekte, die Versuchsobjekte ausführen. | Zeichenfolge | 

# Dynamo ist vorhanden DBTable
<a name="dp-dynamodbtableexists"></a>

 Eine Vorbedingung, um zu überprüfen, ob die DynamoDB-Tabelle existiert. 

## Syntax
<a name="dp-dynamodbtableexists-syntax"></a>


****  

| Pflichtfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| role | Legt die Rolle für die Ausführung der Vorbedingung fest. | Zeichenfolge | 
| tableName | Die zu prüfende DynamoDB-Tabelle. | Zeichenfolge | 

 


****  

| Optionale Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| attemptStatus | Zuletzt gemeldeter Status von der Remote-Aktivität. | Zeichenfolge | 
| attemptTimeout | Timeout für die Remote-Arbeit abgeschlossen. Wenn diese Option aktiviert ist, kann eine Remote-Aktivität, die nicht innerhalb der festgelegten Startzeit abgeschlossen wird, wiederholt werden. | Zeitraum | 
| failureAndRerunModus | Beschreibt das Verhalten des Konsumentenknotens, wenn Abhängigkeiten fehlschlagen oder erneut ausgeführt werden | Aufzählung | 
| lateAfterTimeout | Die nach dem Start der Pipeline verstrichene Zeit, innerhalb der das Objekt abgeschlossen werden muss. Sie wird nur ausgelöst, wenn der Zeitplantyp nicht auf eingestellt ist. ondemand | Zeitraum | 
| maximumRetries | Maximale Anzahl von Versuchen bei Ausfällen | Ganzzahl | 
| onFail | Eine Aktion, die ausgeführt werden soll, wenn das aktuelle Objekt fehlschlägt. | Referenzobjekt, z. B. „onFail“: \$1"ref“:“ myActionId „\$1 | 
| onLateAction | Aktionen, die ausgelöst werden sollen, wenn ein Objekt noch nicht geplant oder noch nicht abgeschlossen wurde. | Referenzobjekt, z. B. "onLateAction„: \$1" ref“:“ myActionId „\$1 | 
| onSuccess | Eine Aktion, die ausgeführt wird, wenn das aktuelle Objekt erfolgreich ist. | Referenzobjekt, z. B. „onSuccess“: \$1"ref“:“ myActionId „\$1 | 
| übergeordneter | Übergeordnetes Objekt des aktuellen Objekts, aus dem Slots übernommen werden. | Referenzobjekt, z. B. „parent“: \$1"ref“:“ myBaseObject Id "\$1 | 
| preconditionTimeout | Der Zeitraum ab dem die Vorbedingung als fehlgeschlagen gekennzeichnet ist, wenn sie noch nicht erfüllt ist | Zeitraum | 
| reportProgressTimeout | Timeout für aufeinanderfolgende Aufrufe von Remote-Arbeit in reportProgress. Wenn diese Option aktiviert ist, werden Remote-Aktivitäten, die den Fortschritt für den angegebenen Zeitraum nicht melden, als fehlgeschlagen angesehen und es wird erneut versucht. | Zeitraum | 
| retryDelay | Die Zeitüberschreitungsdauer zwischen zwei Wiederholungsversuchen. | Zeitraum | 

 


****  

| Laufzeitfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @activeInstances | Liste der aktuell geplanten aktiven Instance-Objekte. | Referenzobjekt, z. B. „activeInstances“: \$1"ref“:“ myRunnableObject Id "\$1 | 
| @actualEndTime | Zeitpunkt, zu dem die Ausführung dieses Objekts abgeschlossen wurde. | DateTime | 
| @actualStartTime | Zeitpunkt, zu dem die Ausführung dieses Objekts gestartet wurde. | DateTime | 
| cancellationReason | Die cancellationReason, wenn dieses Objekt storniert wurde. | Zeichenfolge | 
| @cascadeFailedOn | Beschreibung der Zuständigkeitskette, bei der das Objekt fehlgeschlagen ist. | Referenzobjekt, z. B. "cascadeFailedOn„: \$1" ref“:“ myRunnableObject Id "\$1 | 
| currentRetryCount | Anzahl, wie oft die Vorbedingung in diesem Versuch probiert wurde. | Zeichenfolge | 
| emrStepLog | EMR-Schrittprotokolle nur bei EMR-Aktivitätsversuchen verfügbar | Zeichenfolge | 
| errorId | Die errorId, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorMessage | Die errorMessage, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorStackTrace | Die Fehler-Stack-Ablaufverfolgung., wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| hadoopJobLog | Hadoop-Jobprotokolle für Versuche für EMR-basierte Aktivitäten verfügbar. | Zeichenfolge | 
| hostname | Der Hostname des Clients, der den Aufgabenversuch aufnimmt. | Zeichenfolge | 
| lastRetryTime | Das letzte Mal, dass die Vorbedingung in diesem Versuch probiert wurde. | Zeichenfolge | 
| node | Der Knoten, für den diese Vorbedingung ausgeführt wird | Referenzobjekt, z. B. „node“: \$1"ref“:“ myRunnableObject Id "\$1 | 
| reportProgressTime | Der letzte Zeitpunkt, an dem die Remote-Aktivität einen Fortschritt gemeldet hat. | DateTime | 
| @scheduledEndTime | Endzeit für Objekt einplanen | DateTime | 
| @scheduledStartTime | Startzeit für Objekt einplanen | DateTime | 
| @Status | Der Status des Objekts. | Zeichenfolge | 
| @Version | Pipeline-Version, mit der das Objekt erstellt wurde. | Zeichenfolge | 
| @waitingOn | Beschreibung der Liste der Abhängigkeiten, auf die dieses Objekt wartet. | Referenzobjekt, z. B. „WaitingOn“: \$1"ref“:“ myRunnableObject Id "\$1 | 

 


****  

| Systemfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @error | Fehler mit einer Beschreibung des falsch formatierten Objekts | Zeichenfolge | 
| @pipelineId | Id der Pipeline, zu der dieses Objekt gehört | Zeichenfolge | 
| @sphere | Die Kugel eines Objekts bezeichnet seinen Platz im Lebenszyklus: Komponentenobjekte ergeben Instance-Objekte, die Versuchsobjekte ausführen | Zeichenfolge | 

# Vorhanden
<a name="dp-object-exists"></a>

 Prüft, ob eine Datenknotenobjekt vorhanden ist. 

**Anmerkung**  
Wir empfehlen, stattdessen die vom System verwalteten Vorbedingungen zu verwenden. Weitere Informationen finden Sie unter [Vorbedingungen](dp-concepts-preconditions.md).

## Beispiel
<a name="exists-example"></a>

Es folgt ein Beispiel für diesen Objekttyp. Das `InputData`-Objekt verweist auf dieses Objekt, `Ready`, und auf ein anderes Objekt, das Sie in derselben Pipeline-Definitionsdatei definieren. `CopyPeriod` ist ein `Schedule`-Objekt.

```
{
  "id" : "InputData",
  "type" : "S3DataNode",
  "schedule" : { "ref" : "CopyPeriod" },
  "filePath" : "s3://amzn-s3-demo-bucket/InputData/#{@scheduledStartTime.format('YYYY-MM-dd-hh:mm')}.csv",
  "precondition" : { "ref" : "Ready" }
},
{
  "id" : "Ready",
  "type" : "Exists"
}
```

## Syntax
<a name="exists-syntax"></a>


****  

| Optionale Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| attemptStatus | Zuletzt gemeldeter Status von der Remote-Aktivität. | Zeichenfolge | 
| attemptTimeout | Timeout für die Remote-Arbeit abgeschlossen. Wenn diese Option aktiviert ist, kann eine Remote-Aktivität, die nicht innerhalb der festgelegten Startzeit abgeschlossen wird, wiederholt werden. | Zeitraum | 
| failureAndRerunModus | Beschreibt das Verhalten des Konsumentenknotens, wenn Abhängigkeiten fehlschlagen oder erneut ausgeführt werden. | Aufzählung | 
| lateAfterTimeout | Die nach dem Start der Pipeline verstrichene Zeit, innerhalb der das Objekt abgeschlossen werden muss. Sie wird nur ausgelöst, wenn der Zeitplantyp nicht auf eingestellt ist. ondemand | Zeitraum | 
| maximumRetries | Maximale Anzahl von Versuchen bei Ausfällen | Ganzzahl | 
| onFail | Eine Aktion, die ausgeführt werden soll, wenn das aktuelle Objekt fehlschlägt. | Referenzobjekt, z. B. „onFail“: \$1"ref“:“ myActionId „\$1 | 
| onLateAction | Aktionen, die ausgelöst werden sollen, wenn ein Objekt noch nicht geplant oder noch nicht abgeschlossen wurde. | Referenzobjekt, z. B. "onLateAction„: \$1" ref“:“ myActionId „\$1 | 
| onSuccess | Eine Aktion, die ausgeführt wird, wenn das aktuelle Objekt erfolgreich ist. | Referenzobjekt, z. B. „onSuccess“: \$1"ref“:“ myActionId „\$1 | 
| übergeordneter | Übergeordnetes Objekt des aktuellen Objekts, aus dem Slots übernommen werden. | Referenzobjekt, z. B. „parent“: \$1"ref“:“ myBaseObject Id "\$1 | 
| preconditionTimeout | Der Zeitraum ab dem die Vorbedingung als fehlgeschlagen gekennzeichnet ist, wenn sie noch nicht erfüllt ist | Zeitraum | 
| reportProgressTimeout | Timeout für aufeinanderfolgende Aufrufe von Remote-Arbeit in reportProgress. Wenn diese Option aktiviert ist, werden Remote-Aktivitäten, die den Fortschritt für den angegebenen Zeitraum nicht melden, als fehlgeschlagen angesehen und es wird erneut versucht. | Zeitraum | 
| retryDelay | Die Zeitüberschreitungsdauer zwischen zwei Wiederholungsversuchen. | Zeitraum | 

 


****  

| Laufzeitfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @activeInstances | Liste der aktuell geplanten aktiven Instance-Objekte. | Referenzobjekt, z. B. „activeInstances“: \$1"ref“:“ myRunnableObject Id "\$1 | 
| @actualEndTime | Zeitpunkt, zu dem die Ausführung dieses Objekts abgeschlossen wurde. | DateTime | 
| @actualStartTime | Zeitpunkt, zu dem die Ausführung dieses Objekts gestartet wurde. | DateTime | 
| cancellationReason | Die cancellationReason, wenn dieses Objekt storniert wurde. | Zeichenfolge | 
| @cascadeFailedOn | Beschreibung der Abhängigkeitskette, bei der das Objekt fehlgeschlagen ist. | Referenzobjekt, z. B. "cascadeFailedOn„: \$1" ref“:“ myRunnableObject Id "\$1 | 
| emrStepLog | EMR-Schrittprotokolle nur bei EMR-Aktivitätsversuchen verfügbar | Zeichenfolge | 
| errorId | Die errorId, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorMessage | Die errorMessage, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorStackTrace | Die Fehler-Stack-Ablaufverfolgung., wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| hadoopJobLog | Hadoop-Jobprotokolle für Versuche für EMR-basierte Aktivitäten verfügbar. | Zeichenfolge | 
| hostname | Der Hostname des Clients, der den Aufgabenversuch aufnimmt. | Zeichenfolge | 
| node | Der Knoten, für den diese Vorbedingung ausgeführt wird. | Referenzobjekt, z. B. „node“: \$1"ref“:“ myRunnableObject Id "\$1 | 
| reportProgressTime | Der letzte Zeitpunkt, an dem die Remote-Aktivität einen Fortschritt gemeldet hat. | DateTime | 
| @scheduledEndTime | Endzeit für Objekt einplanen. | DateTime | 
| @scheduledStartTime | Startzeit für Objekt einplanen. | DateTime | 
| @Status | Der Status des Objekts. | Zeichenfolge | 
| @Version | Pipeline-Version, mit der das Objekt erstellt wurde. | Zeichenfolge | 
| @waitingOn | Beschreibung der Liste der Abhängigkeiten, auf die dieses Objekt wartet. | Referenzobjekt, z. B. „WaitingOn“: \$1"ref“:“ myRunnableObject Id "\$1 | 

 


****  

| Systemfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @error | Fehler mit einer Beschreibung des falsch formatierten Objekts. | Zeichenfolge | 
| @pipelineId | Id der Pipeline, zu der dieses Objekt gehört. | Zeichenfolge | 
| @sphere | Die Kugel eines Objekts bezeichnet seinen Platz im Lebenszyklus: Komponentenobjekte ergeben Instance-Objekte, die Versuchsobjekte ausführen. | Zeichenfolge | 

## Weitere Informationen finden Sie unter:
<a name="exists-seealso"></a>
+ [ShellCommandPrecondition](dp-object-shellcommandprecondition.md)

# S3 KeyExists
<a name="dp-object-S3KeyExists"></a>

 Prüft, ob ein Schlüssel in einem Amazon S3-Datenknoten vorhanden ist.

## Beispiel
<a name="dp-object-S3KeyExists-example"></a>

Es folgt ein Beispiel für diesen Objekttyp. Die Vorbedingung wird ausgelöst, wenn der Schlüssel, `s3://amzn-s3-demo-bucket/mykey`, auf den der `s3Key`-Parameter verweist, vorhanden ist. 

```
{
"id" : "InputReady",
"type" : "S3KeyExists",
"role" : "test-role",
"s3Key" : "s3://amzn-s3-demo-bucket/mykey"
}
```

Sie können `S3KeyExists` auch als Voraussetzung für die zweite Pipeline verwenden, die darauf wartet, dass die erste Pipeline abgeschlossen wird. Gehen Sie hierzu wie folgt vor:

1. Schreiben Sie am Ende der Fertigstellung der ersten Pipeline eine Datei in Amazon S3.

1. Erstellen Sie eine `S3KeyExists`-Vorbedingung für die zweite Pipeline.

## Syntax
<a name="S3KeyExists-syntax"></a>


****  

| Pflichtfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| role | Legt die Rolle für die Ausführung der Vorbedingung fest. | Zeichenfolge | 
| s3Key | Der Amazon S3 S3-Schlüssel. | Zeichenfolge | 

 


****  

| Optionale Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| attemptStatus | Zuletzt gemeldeter Status von der Remote-Aktivität. | Zeichenfolge | 
| attemptTimeout | Timeout vor dem Versuch, die Remote-Arbeit noch einmal auszuführen. Wenn diese Option aktiviert ist, wird erneut versucht, eine Remote-Aktivität durchzuführen, die nach dem Start nicht innerhalb der festgelegten Zeit abgeschlossen wird. | Zeitraum | 
| failureAndRerunModus | Beschreibt das Verhalten des Konsumentenknotens, wenn Abhängigkeiten fehlschlagen oder erneut ausgeführt werden. | Aufzählung | 
| lateAfterTimeout | Die nach dem Start der Pipeline verstrichene Zeit, innerhalb der das Objekt abgeschlossen werden muss. Sie wird nur ausgelöst, wenn der Zeitplantyp nicht auf eingestellt ist. ondemand | Zeitraum | 
| maximumRetries | Maximale Anzahl der Versuche, die bei einem Fehler initiiert werden. | Ganzzahl | 
| onFail | Eine Aktion, die ausgeführt werden soll, wenn das aktuelle Objekt fehlschlägt. | Referenzobjekt, z. B. „onFail“: \$1"ref“:“ myActionId „\$1 | 
| onLateAction | Aktionen, die ausgelöst werden sollen, wenn ein Objekt noch nicht geplant oder noch nicht abgeschlossen wurde. | Referenzobjekt, z. B. "onLateAction„: \$1" ref“:“ myActionId „\$1 | 
| onSuccess | Eine Aktion, die ausgeführt wird, wenn das aktuelle Objekt erfolgreich ist. | Referenzobjekt, z. B. „onSuccess“: \$1"ref“:“ myActionId „\$1 | 
| übergeordneter | Übergeordnetes Objekt des aktuellen Objekts, aus dem Slots übernommen werden. | Referenzobjekt, z. B. „parent“: \$1"ref“:“ myBaseObject Id "\$1 | 
| preconditionTimeout | Der Zeitraum ab dem die Vorbedingung als fehlgeschlagen gekennzeichnet ist, wenn sie noch nicht erfüllt ist. | Zeitraum | 
| reportProgressTimeout | Timeout für aufeinanderfolgende Aufrufe von Remote-Arbeit in reportProgress. Wenn diese Option aktiviert ist, werden Remote-Aktivitäten, die den Fortschritt für den angegebenen Zeitraum nicht melden, als fehlgeschlagen angesehen und es wird erneut versucht. | Zeitraum | 
| retryDelay | Die Zeitüberschreitungsdauer zwischen zwei aufeinander folgenden Versuchen. | Zeitraum | 

 


****  

| Laufzeitfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @activeInstances | Liste der aktuell geplanten aktiven Instance-Objekte. | Referenzobjekt, z. B. „activeInstances“: \$1"ref“:“ myRunnableObject Id "\$1 | 
| @actualEndTime | Zeitpunkt, zu dem die Ausführung dieses Objekts abgeschlossen wurde. | DateTime | 
| @actualStartTime | Zeitpunkt, zu dem die Ausführung dieses Objekts gestartet wurde. | DateTime | 
| cancellationReason | Die cancellationReason, wenn dieses Objekt storniert wurde. | Zeichenfolge | 
| @cascadeFailedOn | Beschreibung der Abhängigkeitskette, bei der das Objekt fehlgeschlagen ist. | Referenzobjekt, z. B. "cascadeFailedOn„: \$1" ref“:“ myRunnableObject Id "\$1 | 
| currentRetryCount | Anzahl, wie oft die Vorbedingung in diesem Versuch probiert wurde. | Zeichenfolge | 
| emrStepLog | EMR-Schrittprotokolle nur bei EMR-Aktivitätsversuchen verfügbar | Zeichenfolge | 
| errorId | Die errorId, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorMessage | Die errorMessage, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorStackTrace | Die Fehler-Stack-Ablaufverfolgung., wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| hadoopJobLog | Hadoop-Jobprotokolle für Versuche für EMR-basierte Aktivitäten verfügbar. | Zeichenfolge | 
| hostname | Der Hostname des Clients, der den Aufgabenversuch aufnimmt. | Zeichenfolge | 
| lastRetryTime | Das letzte Mal, dass die Vorbedingung in diesem Versuch probiert wurde. | Zeichenfolge | 
| node | Der Knoten, für den diese Vorbedingung ausgeführt wird | Referenzobjekt, z. B. „node“: \$1"ref“:“ myRunnableObject Id "\$1 | 
| reportProgressTime | Der letzte Zeitpunkt, an dem die Remote-Aktivität einen Fortschritt gemeldet hat. | DateTime | 
| @scheduledEndTime | Endzeit für Objekt einplanen | DateTime | 
| @scheduledStartTime | Startzeit für Objekt einplanen | DateTime | 
| @Status | Der Status des Objekts. | Zeichenfolge | 
| @Version | Pipeline-Version, mit der das Objekt erstellt wurde. | Zeichenfolge | 
| @waitingOn | Beschreibung der Liste der Abhängigkeiten, auf die dieses Objekt wartet. | Referenzobjekt, z. B. „WaitingOn“: \$1"ref“:“ myRunnableObject Id "\$1 | 

 


****  

| Systemfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @error | Fehler mit einer Beschreibung des falsch formatierten Objekts | Zeichenfolge | 
| @pipelineId | Id der Pipeline, zu der dieses Objekt gehört | Zeichenfolge | 
| @sphere | Die Kugel eines Objekts bezeichnet seinen Platz im Lebenszyklus: Komponentenobjekte ergeben Instance-Objekte, die Versuchsobjekte ausführen | Zeichenfolge | 

## Weitere Informationen finden Sie unter:
<a name="S3KeyExists-seealso"></a>
+ [ShellCommandPrecondition](dp-object-shellcommandprecondition.md)

# S3 PrefixNotEmpty
<a name="dp-object-s3prefixnotempty"></a>

Eine Voraussetzung, um zu überprüfen, ob die Amazon S3 S3-Objekte mit dem angegebenen Präfix (dargestellt als URI) vorhanden sind.

## Beispiel
<a name="s3prefixnotempty-example"></a>

Es folgt ein Beispiel für die Verwendung dieses Objekttyps mit erforderlichen, optionalen und Ausdrucksfeldern.

```
{
  "id" : "InputReady",
  "type" : "S3PrefixNotEmpty",
  "role" : "test-role",
  "s3Prefix" : "#{node.filePath}"
}
```

## Syntax
<a name="s3prefixnotempty-syntax"></a>


****  

| Pflichtfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| role | Legt die Rolle für die Ausführung der Vorbedingung fest. | Zeichenfolge | 
| s3Prefix | Das Amazon S3 S3-Präfix zur Überprüfung der Existenz von Objekten. | Zeichenfolge | 

 


****  

| Optionale Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| attemptStatus | Zuletzt gemeldeter Status von der Remote-Aktivität. | Zeichenfolge | 
| attemptTimeout | Timeout für die Remote-Arbeit abgeschlossen. Wenn diese Option aktiviert ist, kann eine Remote-Aktivität, die nicht innerhalb der festgelegten Startzeit abgeschlossen wird, wiederholt werden. | Zeitraum | 
| failureAndRerunModus | Beschreibt das Verhalten des Konsumentenknotens, wenn Abhängigkeiten fehlschlagen oder erneut ausgeführt werden | Aufzählung | 
| lateAfterTimeout | Die nach dem Start der Pipeline verstrichene Zeit, innerhalb der das Objekt abgeschlossen werden muss. Sie wird nur ausgelöst, wenn der Zeitplantyp nicht auf eingestellt ist. ondemand | Zeitraum | 
| maximumRetries | Maximale Anzahl von Versuchen bei Ausfällen | Ganzzahl | 
| onFail | Eine Aktion, die ausgeführt werden soll, wenn das aktuelle Objekt fehlschlägt. | Referenzobjekt, z. B. „onFail“: \$1"ref“:“ myActionId „\$1 | 
| onLateAction | Aktionen, die ausgelöst werden sollen, wenn ein Objekt noch nicht geplant oder noch nicht abgeschlossen wurde. | Referenzobjekt, z. B. "onLateAction„: \$1" ref“:“ myActionId „\$1 | 
| onSuccess | Eine Aktion, die ausgeführt wird, wenn das aktuelle Objekt erfolgreich ist. | Referenzobjekt, z. B. „onSuccess“: \$1"ref“:“ myActionId „\$1 | 
| übergeordneter | Übergeordnetes Objekt des aktuellen Objekts, aus dem Slots übernommen werden. | Referenzobjekt, z. B. „parent“: \$1"ref“:“ myBaseObject Id "\$1 | 
| preconditionTimeout | Der Zeitraum ab dem die Vorbedingung als fehlgeschlagen gekennzeichnet ist, wenn sie noch nicht erfüllt ist | Zeitraum | 
| reportProgressTimeout | Timeout für aufeinanderfolgende Aufrufe von Remote-Arbeit in reportProgress. Wenn diese Option aktiviert ist, werden Remote-Aktivitäten, die den Fortschritt für den angegebenen Zeitraum nicht melden, als fehlgeschlagen angesehen und es wird erneut versucht. | Zeitraum | 
| retryDelay | Die Zeitüberschreitungsdauer zwischen zwei Wiederholungsversuchen. | Zeitraum | 

 


****  

| Laufzeitfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @activeInstances | Liste der aktuell geplanten aktiven Instance-Objekte. | Referenzobjekt, z. B. „activeInstances“: \$1"ref“:“ myRunnableObject Id "\$1 | 
| @actualEndTime | Zeitpunkt, zu dem die Ausführung dieses Objekts abgeschlossen wurde. | DateTime | 
| @actualStartTime | Zeitpunkt, zu dem die Ausführung dieses Objekts gestartet wurde. | DateTime | 
| cancellationReason | Die cancellationReason, wenn dieses Objekt storniert wurde. | Zeichenfolge | 
| @cascadeFailedOn | Beschreibung der Abhängigkeitskette, bei der das Objekt fehlgeschlagen ist. | Referenzobjekt, z. B. "cascadeFailedOn„: \$1" ref“:“ myRunnableObject Id "\$1 | 
| currentRetryCount | Anzahl, wie oft die Vorbedingung in diesem Versuch probiert wurde. | Zeichenfolge | 
| emrStepLog | EMR-Schrittprotokolle nur bei EMR-Aktivitätsversuchen verfügbar | Zeichenfolge | 
| errorId | Die errorId, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorMessage | Die errorMessage, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorStackTrace | Die Fehler-Stack-Ablaufverfolgung., wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| hadoopJobLog | Hadoop-Jobprotokolle für Versuche für EMR-basierte Aktivitäten verfügbar. | Zeichenfolge | 
| hostname | Der Hostname des Clients, der den Aufgabenversuch aufnimmt. | Zeichenfolge | 
| lastRetryTime | Das letzte Mal, dass die Vorbedingung in diesem Versuch probiert wurde. | Zeichenfolge | 
| node | Der Knoten, für den diese Vorbedingung ausgeführt wird. | Referenzobjekt, z. B. „node“: \$1"ref“:“ myRunnableObject Id "\$1 | 
| reportProgressTime | Der letzte Zeitpunkt, an dem die Remote-Aktivität einen Fortschritt gemeldet hat. | DateTime | 
| @scheduledEndTime | Endzeit für Objekt einplanen. | DateTime | 
| @scheduledStartTime | Startzeit für Objekt einplanen. | DateTime | 
| @Status | Der Status des Objekts. | Zeichenfolge | 
| @Version | Pipeline-Version, mit der das Objekt erstellt wurde. | Zeichenfolge | 
| @waitingOn | Beschreibung der Liste der Abhängigkeiten, auf die dieses Objekt wartet. | Referenzobjekt, z. B. „WaitingOn“: \$1"ref“:“ myRunnableObject Id "\$1 | 

 


****  

| Systemfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @error | Fehler mit einer Beschreibung des falsch formatierten Objekts | Zeichenfolge | 
| @pipelineId | Id der Pipeline, zu der dieses Objekt gehört | Zeichenfolge | 
| @sphere | Die Kugel eines Objekts bezeichnet seinen Platz im Lebenszyklus: Komponentenobjekte ergeben Instance-Objekte, die Versuchsobjekte ausführen | Zeichenfolge | 

## Weitere Informationen finden Sie unter:
<a name="s3prefixnotempty-seealso"></a>
+ [ShellCommandPrecondition](dp-object-shellcommandprecondition.md)

# ShellCommandPrecondition
<a name="dp-object-shellcommandprecondition"></a>

 Ein Unix/Linux Shell-Befehl, der als Vorbedingung ausgeführt werden kann. 

## Beispiel
<a name="shellcommandprecondition-example"></a>

Es folgt ein Beispiel für diesen Objekttyp.

```
{
  "id" : "VerifyDataReadiness",
  "type" : "ShellCommandPrecondition",
  "command" : "perl check-data-ready.pl"
}
```

## Syntax
<a name="shellcommandprecondition-syntax"></a>


****  

| Erforderliche Gruppe (mindestens eine der folgenden ist erforderlich) | Description | Slot-Typ | 
| --- | --- | --- | 
| command | Den auszuführenden Befehl. Dieser Wert und alle zugehörigen Parameter müssen in der Umgebung funktionieren, in der Sie den Task-Runner ausführen. | Zeichenfolge | 
| scriptUri | Ein Amazon S3-URI-Pfad für eine Datei, die heruntergeladen und als Shell-Befehl ausgeführt werden soll. Nur das Feld scriptUri oder das Befehlsfeld sollten vorhanden sein. scriptUri kann keine Parameter verwenden. Verwenden Sie stattdessen das Befehlsfeld. | Zeichenfolge | 

 


****  

| Optionale Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| attemptStatus | Zuletzt gemeldeter Status von der Remote-Aktivität. | Zeichenfolge | 
| attemptTimeout | Timeout für die Remote-Arbeit abgeschlossen. Wenn diese Option aktiviert ist, kann eine Remote-Aktivität, die nicht innerhalb der festgelegten Startzeit abgeschlossen wird, wiederholt werden. | Zeitraum | 
| failureAndRerunModus | Beschreibt das Verhalten des Konsumentenknotens, wenn Abhängigkeiten fehlschlagen oder erneut ausgeführt werden | Aufzählung | 
| lateAfterTimeout | Die nach dem Start der Pipeline verstrichene Zeit, innerhalb der das Objekt abgeschlossen werden muss. Sie wird nur ausgelöst, wenn der Zeitplantyp nicht auf eingestellt ist. ondemand | Zeitraum | 
| maximumRetries | Maximale Anzahl von Versuchen bei Ausfällen | Ganzzahl | 
| onFail | Eine Aktion, die ausgeführt werden soll, wenn das aktuelle Objekt fehlschlägt. | Referenzobjekt, z. B. „onFail“: \$1"ref“:“ myActionId „\$1 | 
| onLateAction | Aktionen, die ausgelöst werden sollen, wenn ein Objekt noch nicht geplant oder noch nicht abgeschlossen wurde. | Referenzobjekt, z. B. "onLateAction„: \$1" ref“:“ myActionId „\$1 | 
| onSuccess | Eine Aktion, die ausgeführt wird, wenn das aktuelle Objekt erfolgreich ist. | Referenzobjekt, z. B. „onSuccess“: \$1"ref“:“ myActionId „\$1 | 
| übergeordneter | Übergeordnetes Objekt des aktuellen Objekts, aus dem Slots übernommen werden. | Referenzobjekt, z. B. „parent“: \$1"ref“:“ myBaseObject Id "\$1 | 
| preconditionTimeout | Der Zeitraum ab dem die Vorbedingung als fehlgeschlagen gekennzeichnet ist, wenn sie noch nicht erfüllt ist | Zeitraum | 
| reportProgressTimeout | Timeout für aufeinanderfolgende Aufrufe von Remote-Arbeit in reportProgress. Wenn diese Option aktiviert ist, werden Remote-Aktivitäten, die den Fortschritt für den angegebenen Zeitraum nicht melden, als fehlgeschlagen angesehen und es wird erneut versucht. | Zeitraum | 
| retryDelay | Die Zeitüberschreitungsdauer zwischen zwei Wiederholungsversuchen. | Zeitraum | 
| scriptArgument | Argument, das an ein Shell-Skript übergeben werden soll | Zeichenfolge | 
| stderr | Der Amazon S3 S3-Pfad, der umgeleitete Systemfehlermeldungen vom Befehl empfängt. Wenn Sie das runsOn Feld verwenden, muss es sich um einen Amazon S3 S3-Pfad handeln, da die Ressource, auf der Ihre Aktivität ausgeführt wird, vorübergehend ist. Wenn Sie jedoch das Feld workerGroup angeben, ist ein lokaler Dateipfad zulässig. | Zeichenfolge | 
| stdout | Der Amazon S3 S3-Pfad, der die umgeleitete Ausgabe des Befehls empfängt. Wenn Sie das runsOn Feld verwenden, muss es sich um einen Amazon S3 S3-Pfad handeln, da die Ressource, auf der Ihre Aktivität ausgeführt wird, vorübergehend ist. Wenn Sie jedoch das Feld workerGroup angeben, ist ein lokaler Dateipfad zulässig. | Zeichenfolge | 

 


****  

| Laufzeitfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @activeInstances | Liste der aktuell geplanten aktiven Instance-Objekte. | Referenzobjekt, z. B. „activeInstances“: \$1"ref“:“ Id "\$1 myRunnableObject | 
| @actualEndTime | Zeitpunkt, zu dem die Ausführung dieses Objekts abgeschlossen wurde. | DateTime | 
| @actualStartTime | Zeitpunkt, zu dem die Ausführung dieses Objekts gestartet wurde. | DateTime | 
| cancellationReason | Die cancellationReason, wenn dieses Objekt storniert wurde. | Zeichenfolge | 
| @cascadeFailedOn | Beschreibung der Abhängigkeitskette, bei der das Objekt fehlgeschlagen ist. | Referenzobjekt, z. B. "cascadeFailedOn„: \$1" ref“:“ myRunnableObject Id "\$1 | 
| emrStepLog | EMR-Schrittprotokolle nur bei EMR-Aktivitätsversuchen verfügbar | Zeichenfolge | 
| errorId | Die errorId, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorMessage | Die errorMessage, wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| errorStackTrace | Die Fehler-Stack-Ablaufverfolgung., wenn dieses Objekt fehlgeschlagen ist. | Zeichenfolge | 
| hadoopJobLog | Hadoop-Jobprotokolle für Versuche für EMR-basierte Aktivitäten verfügbar. | Zeichenfolge | 
| hostname | Der Hostname des Clients, der den Aufgabenversuch aufnimmt. | Zeichenfolge | 
| node | Der Knoten, für den diese Vorbedingung ausgeführt wird | Referenzobjekt, z. B. „node“: \$1"ref“:“ myRunnableObject Id "\$1 | 
| reportProgressTime | Der letzte Zeitpunkt, an dem die Remote-Aktivität einen Fortschritt gemeldet hat. | DateTime | 
| @scheduledEndTime | Endzeit für Objekt einplanen | DateTime | 
| @scheduledStartTime | Startzeit für Objekt einplanen | DateTime | 
| @Status | Der Status des Objekts. | Zeichenfolge | 
| @Version | Pipeline-Version, mit der das Objekt erstellt wurde. | Zeichenfolge | 
| @waitingOn | Beschreibung der Liste der Abhängigkeiten, auf die dieses Objekt wartet. | Referenzobjekt, z. B. „WaitingOn“: \$1"ref“:“ myRunnableObject Id "\$1 | 

 


****  

| Systemfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @error | Fehler mit einer Beschreibung des falsch formatierten Objekts | Zeichenfolge | 
| @pipelineId | Id der Pipeline, zu der dieses Objekt gehört | Zeichenfolge | 
| @sphere | Die Kugel eines Objekts bezeichnet seinen Platz im Lebenszyklus: Komponentenobjekte ergeben Instance-Objekte, die Versuchsobjekte ausführen | Zeichenfolge | 

## Weitere Informationen finden Sie unter:
<a name="shellcommandprecondition-seealso"></a>
+ [ShellCommandActivity](dp-object-shellcommandactivity.md)
+ [Vorhanden](dp-object-exists.md)

# Datenbanken
<a name="dp-object-databases"></a>

Im Folgenden sind die AWS Data Pipeline Datenbankobjekte aufgeführt:

**Topics**
+ [JdbcDatabase](dp-object-jdbcdatabase.md)
+ [RdsDatabase](dp-object-rdsdatabase.md)
+ [RedshiftDatabase](dp-object-redshiftdatabase.md)

# JdbcDatabase
<a name="dp-object-jdbcdatabase"></a>

Definiert eine JDBC-Datenbank.

## Beispiel
<a name="jdbcdatabase-example"></a>

Es folgt ein Beispiel für diesen Objekttyp.

```
{
  "id" : "MyJdbcDatabase",
  "type" : "JdbcDatabase",
  "connectionString" : "jdbc:redshift://hostname:portnumber/dbname",
  "jdbcDriverClass" : "com.amazon.redshift.jdbc41.Driver",
  "jdbcDriverJarUri" : "s3://redshift-downloads/drivers/RedshiftJDBC41-1.1.6.1006.jar",
  "username" : "user_name",
  "*password" : "my_password"
}
```

## Syntax
<a name="jdbcdatabase-syntax"></a>


****  

| Pflichtfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| connectionString | Die JDBC-Verbindungszeichenfolge für den Zugriff auf die Datenbank. | Zeichenfolge | 
| jdbcDriverClass | Die Treiberklasse, die vor dem Herstellen der JDBC-Verbindung geladen werden soll. | Zeichenfolge | 
| \$1Passwort | Das anzugebende Passwort. | Zeichenfolge | 
| username | Der Benutzername, der anzugeben ist, wenn eine Verbindung zur Datenbank hergestellt wird. | Zeichenfolge | 

 


****  

| Optionale Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| databaseName | Name der logischen Datenbank für das Anfügen. | Zeichenfolge | 
| jdbcDriverJarUri | Der Amazon S3-Speicherort der JAR-Datei des JDBC-Treibers für die Verbindung mit der Datenbank. AWS Data Pipeline muss über die Leseberechtigung für diese JAR-Datei verfügen. | Zeichenfolge | 
| jdbcProperties | Paare der Form A=B, die als Eigenschaften für JDBC-Verbindungen für diese Datenbank festgelegt werden | Zeichenfolge | 
| übergeordneter | Übergeordnetes Objekt des aktuellen Objekts, aus dem Slots übernommen werden. | Referenzobjekt, z. B. „parent“: \$1"ref“:“ myBaseObject Id "\$1 | 

 


****  

| Laufzeitfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @Version | Pipeline-Version, mit der das Objekt erstellt wurde | Zeichenfolge | 

 


****  

| Systemfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @error | Fehler mit einer Beschreibung des falsch formatierten Objekts. | Zeichenfolge | 
| @pipelineId | ID der Pipeline, zu der dieses Objekt gehört. | Zeichenfolge | 
| @sphere | Die Kugel eines Objekts bezeichnet seinen Platz im Lebenszyklus: Komponentenobjekte ergeben Instance-Objekte, die Versuchsobjekte ausführen. | Zeichenfolge | 

# RdsDatabase
<a name="dp-object-rdsdatabase"></a>

Definiert eine Amazon RDS-Datenbank.

**Anmerkung**  
RdsDatabase unterstützt Aurora nicht. Verwenden Sie es stattdessen [JdbcDatabase](dp-object-jdbcdatabase.md) für Aurora.

## Beispiel
<a name="rdsdatabase-example"></a>

Es folgt ein Beispiel für diesen Objekttyp.

```
{
  "id" : "MyRdsDatabase",
  "type" : "RdsDatabase",
  "region" : "us-east-1",
  "username" : "user_name",
  "*password" : "my_password",
  "rdsInstanceId" : "my_db_instance_identifier"
}
```

Für die Oracle-Engine ist das Feld `jdbcDriverJarUri` eine Pflichtangabe. Sie können den folgenden Treiber festlegen: `http://www.oracle.com/technetwork/database/features/jdbc/jdbc-drivers-12c-download-1958347.html`. Für die SQL-Server-Engine ist das Feld `jdbcDriverJarUri` eine Pflichtangabe. Sie können den folgenden Treiber festlegen: `https://www.microsoft.com/en-us/download/details.aspx?displaylang=en&id=11774`. Für die MySQL- und PostgreSQL-Engines ist das Feld `jdbcDriverJarUri` optional.

## Syntax
<a name="rdsdatabase-syntax"></a>


****  

| Pflichtfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| \$1Passwort | Das anzugebende Passwort. | Zeichenfolge | 
| rdsInstanceId | Die DBInstanceIdentifier Eigenschaft der DB-Instance. | Zeichenfolge | 
| username | Der Benutzername, der anzugeben ist, wenn eine Verbindung zur Datenbank hergestellt wird. | Zeichenfolge | 

 


****  

| Optionale Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| databaseName | Name der logischen Datenbank für das Anfügen. | Zeichenfolge | 
| jdbcDriverJarUri | Der Amazon S3-Speicherort der JAR-Datei des JDBC-Treibers für die Verbindung mit der Datenbank. AWS Data Pipeline muss über die Leseberechtigung für diese JAR-Datei verfügen. Für MySQL- und PostgreSQL-Engines wird der Standardtreiber verwendet, wenn dieses Feld nicht angegeben ist. Sie können den Standardwert jedoch mit diesem Feld überschreiben. Für die Oracle- und SQL Server-Engines ist dieses Feld eine Pflichtangabe. | Zeichenfolge | 
| jdbcProperties | Paare der Form A=B, die als Eigenschaften für JDBC-Verbindungen für diese Datenbank festgelegt werden | Zeichenfolge | 
| übergeordneter | Übergeordnetes Objekt des aktuellen Objekts, aus dem Slots übernommen werden. | Referenzobjekt, zum Beispiel „parent“: \$1"ref“:“ myBaseObject Id "\$1 | 
| Region | Der Code für die Region, in der die Datenbank vorhanden ist. Beispiel: us-east-1. | Zeichenfolge | 

 


****  

| Laufzeitfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @Version | Pipeline-Version, mit der das Objekt erstellt wurde | Zeichenfolge | 

 


****  

| Systemfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @error | Fehler mit einer Beschreibung des falsch formatierten Objekts. | Zeichenfolge | 
| @pipelineId | ID der Pipeline, zu der dieses Objekt gehört. | Zeichenfolge | 
| @sphere | Die Kugel eines Objekts bezeichnet seinen Platz im Lebenszyklus: Komponentenobjekte ergeben Instance-Objekte, die Versuchsobjekte ausführen. | Zeichenfolge | 

# RedshiftDatabase
<a name="dp-object-redshiftdatabase"></a>

Definiert eine Amazon Redshift Redshift-Datenbank. `RedshiftDatabase`stellt die Eigenschaften der Datenbank dar, die von Ihrer Pipeline verwendet wird.

## Beispiel
<a name="redshiftdatabase-example"></a>

Es folgt ein Beispiel für diesen Objekttyp.

```
{
  "id" : "MyRedshiftDatabase",
  "type" : "RedshiftDatabase",
  "clusterId" : "myRedshiftClusterId",
  "username" : "user_name",
  "*password" : "my_password",
  "databaseName" : "database_name"
}
```

Standardmäßig nutzt das Objekt den Postgres-Treiber, für den das Feld `clusterId` erforderlich ist. Um den Amazon Redshift Redshift-Treiber zu verwenden, geben Sie stattdessen die Amazon Redshift Redshift-Datenbankverbindungszeichenfolge aus der Amazon Redshift Redshift-Konsole (beginnt mit „jdbc:redshift:“) in das Feld ein. `connectionString`

## Syntax
<a name="redshiftdatabase-syntax"></a>


****  

| Pflichtfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| \$1Passwort | Das anzugebende Passwort. | Zeichenfolge | 
| username | Der Benutzername, der anzugeben ist, wenn eine Verbindung zur Datenbank hergestellt wird. | Zeichenfolge | 

 


****  

| Erforderliche Gruppe (mindestens eine der folgenden ist erforderlich) | Description | Slot-Typ | 
| --- | --- | --- | 
| clusterId | Die ID, die der Benutzer bei der Erstellung des Amazon Redshift Redshift-Clusters angegeben hat. Wenn der Endpunkt für Ihren Amazon Redshift Redshift-Cluster beispielsweise mydb.example.us-east-1.redshift.amazonaws.com lautet, lautet die korrekte ID. mydb Sie können diesen Wert in der Amazon Redshift-Konsole über "Cluster Identifier" oder "Cluster Name" ermitteln. | Zeichenfolge | 
| connectionString | Der JDBC-Endpunkt für die Verbindung mit einer Amazon Redshift Redshift-Instance, die einem anderen Konto als der Pipeline gehört. Sie können nicht sowohl connectionString als auch clusterId angeben. | Zeichenfolge | 

 


****  

| Optionale Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| databaseName | Name der logischen Datenbank für das Anfügen. | Zeichenfolge | 
| jdbcProperties | Paare der Form A=B müssen als Eigenschaften für JDBC-Verbindungen für diese Datenbank festgelegt werden. | Zeichenfolge | 
| übergeordneter | Übergeordnetes Objekt des aktuellen Objekts, aus dem Slots übernommen werden. | Referenzobjekt, zum Beispiel „parent“: \$1"ref“:“ myBaseObject Id "\$1 | 
| Region | Der Code für die Region, in der die Datenbank vorhanden ist. Beispiel: us-east-1. | Aufzählung | 

 


****  

| Laufzeitfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @Version | Pipeline-Version, mit der das Objekt erstellt wurde | Zeichenfolge | 

 


****  

| Systemfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @error | Fehler mit einer Beschreibung des falsch formatierten Objekts. | Zeichenfolge | 
| @pipelineId | ID der Pipeline, zu der dieses Objekt gehört. | Zeichenfolge | 
| @sphere | Die Kugel eines Objekts bezeichnet seinen Platz im Lebenszyklus: Komponentenobjekte ergeben Instance-Objekte, die Versuchsobjekte ausführen. | Zeichenfolge | 

# Datenformate
<a name="dp-object-dataformats"></a>

Im Folgenden sind die AWS Data Pipeline Datenformat-Objekte aufgeführt:

**Topics**
+ [CSV-Datenformate](dp-object-csv.md)
+ [Custom Data Format](dp-object-custom.md)
+ [Dynamo-Format DBData](dp-object-dynamodbdataformat.md)
+ [Dynamo DBExport DataFormat](dp-object-dynamodbexportdataformat.md)
+ [RegEx Datenformat](dp-object-regex.md)
+ [TSV-Datenformate](dp-object-tsv.md)

# CSV-Datenformate
<a name="dp-object-csv"></a>

Ein durch Kommas getrenntes Datenformat, bei dem das Trennzeichen für Spalten ein Komma und das Datensatztrennzeichen ein Zeilenumbruch ist.

## Beispiel
<a name="csv-example"></a>

Es folgt ein Beispiel für diesen Objekttyp. 

```
{
  "id" : "MyOutputDataType",
  "type" : "CSV",
  "column" : [
    "Name STRING",
    "Score INT",
    "DateOfBirth TIMESTAMP"
  ]
}
```

## Syntax
<a name="csv-syntax"></a>


****  

| Optionale Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| column | Spaltenname mit Datentyp, der von jedem Feld für die Daten angegeben wird, die von diesem Datenknoten beschrieben werden. Beispiel: Bei Hostname STRING verwenden Sie für mehrere Werte Spaltennamen und Datentypen, die durch ein Leerzeichen getrennt sind. | Zeichenfolge | 
| escapeChar | Ein Zeichen (z. B."\$1"), das den Parser anweist, das nächste Zeichen zu ignorieren. | Zeichenfolge | 
| übergeordneter | Übergeordnetes Objekt des aktuellen Objekts, aus dem Slots übernommen werden. | Referenzobjekt, z. B. „parent“: \$1"ref“:“ myBaseObject Id "\$1 | 

 


****  

| Laufzeitfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @Version | Pipeline-Version, mit der das Objekt erstellt wurde. | Zeichenfolge | 

 


****  

| Systemfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @error | Fehler mit einer Beschreibung des falsch formatierten Objekts | Zeichenfolge | 
| @pipelineId | Id der Pipeline, zu der dieses Objekt gehört | Zeichenfolge | 
| @sphere | Die Kugel eines Objekts bezeichnet seinen Platz im Lebenszyklus: Komponentenobjekte ergeben Instance-Objekte, die Versuchsobjekte ausführen | Zeichenfolge | 

# Custom Data Format
<a name="dp-object-custom"></a>

Ein benutzerdefiniertes Datenformat, das auf einer Kombination eines bestimmten Spaltentrennzeichens, Datensatztrennzeichens und des Escape-Zeichens basiert.

## Beispiel
<a name="custom-example"></a>

Es folgt ein Beispiel für diesen Objekttyp. 

```
{
  "id" : "MyOutputDataType",
  "type" : "Custom",
  "columnSeparator" : ",",
  "recordSeparator" : "\n",
  "column" : [
    "Name STRING",
    "Score INT",
    "DateOfBirth TIMESTAMP"
  ]
}
```

## Syntax
<a name="custom-syntax"></a>


****  

| Pflichtfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| columnSeparator | Das Zeichen, mit dem das Ende einer Spalte in einer Datendatei kennzeichnet wird. | Zeichenfolge | 

 


****  

| Optionale Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| column | Spaltenname mit Datentyp, der von jedem Feld für die Daten angegeben wird, die von diesem Datenknoten beschrieben werden. Beispiel: Bei Hostname STRING verwenden Sie für mehrere Werte Spaltennamen und Datentypen, die durch ein Leerzeichen getrennt sind. | Zeichenfolge | 
| übergeordneter | Übergeordnetes Objekt des aktuellen Objekts, aus dem Slots übernommen werden. | Referenzobjekt, z. B. „parent“: \$1"ref“:“ myBaseObject Id "\$1 | 
| recordSeparator | Das Zeichen, mit dem das Ende einer Zeile in einer Datendatei kennzeichnet wird, z. B. "\$1n". Es werden nur einzelne Zeichen unterstützt. | Zeichenfolge | 

 


****  

| Laufzeitfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @Version | Pipeline-Version, mit der das Objekt erstellt wurde. | Zeichenfolge | 

 


****  

| Systemfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @error | Fehler mit einer Beschreibung des falsch formatierten Objekts | Zeichenfolge | 
| @pipelineId | Id der Pipeline, zu der dieses Objekt gehört | Zeichenfolge | 
| @sphere | Die Kugel eines Objekts bezeichnet seinen Platz im Lebenszyklus: Komponentenobjekte ergeben Instance-Objekte, die Versuchsobjekte ausführen | Zeichenfolge | 

# Dynamo-Format DBData
<a name="dp-object-dynamodbdataformat"></a>

Wendet ein Schema auf eine DynamoDB-Tabelle an, um sie über eine Hive-Abfrage zugänglich zu machen. `DynamoDBDataFormat`wird mit einem `HiveActivity` Objekt und einer `DynamoDBDataNode` Eingabe und Ausgabe verwendet. `DynamoDBDataFormat`erfordert, dass Sie alle Spalten in Ihrer Hive-Abfrage angeben. Mehr Flexibilität bei der Angabe bestimmter Spalten in einer Hive-Abfrage oder Amazon S3 S3-Unterstützung finden Sie unter[Dynamo DBExport DataFormat](dp-object-dynamodbexportdataformat.md).

**Anmerkung**  
Boolesche DynamoDB-Typen sind nicht zu booleschen Hive-Typen zugeordnet. Es ist aber möglich, DynamoDB-Ganzzahlwerte von 0 oder 1 den booleschen Hive-Typen zuzuordnen.

## Beispiel
<a name="dynamodbdataformat-example"></a>

Das folgende Beispiel zeigt, wie Sie mit `DynamoDBDataFormat` ein Schema einer `DynamoDBDataNode`-Eingabe zuweisen, wodurch ein `HiveActivity`-Objekt auf die Daten nach benannten Spalten zugreifen und die Daten in eine `DynamoDBDataNode`-Ausgabe kopieren kann. 

```
{
  "objects": [
    {
      "id" : "Exists.1",
      "name" : "Exists.1",
      "type" : "Exists"
    },
    {
      "id" : "DataFormat.1",
      "name" : "DataFormat.1",
      "type" : "DynamoDBDataFormat",
      "column" : [ 
         "hash STRING", 
        "range STRING" 
      ]
    },
    {
      "id" : "DynamoDBDataNode.1",
      "name" : "DynamoDBDataNode.1",
      "type" : "DynamoDBDataNode",
      "tableName" : "$INPUT_TABLE_NAME",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.1" }
    },
    {
      "id" : "DynamoDBDataNode.2",
      "name" : "DynamoDBDataNode.2",
      "type" : "DynamoDBDataNode",
      "tableName" : "$OUTPUT_TABLE_NAME",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.1" }
    },
    {
      "id" : "EmrCluster.1",
      "name" : "EmrCluster.1",
      "type" : "EmrCluster",
      "schedule" : { "ref" : "ResourcePeriod" },
      "masterInstanceType" : "m1.small",
      "keyPair" : "$KEYPAIR"
    },
    {
      "id" : "HiveActivity.1",
      "name" : "HiveActivity.1",
      "type" : "HiveActivity",
      "input" : { "ref" : "DynamoDBDataNode.1" },
      "output" : { "ref" : "DynamoDBDataNode.2" },
      "schedule" : { "ref" : "ResourcePeriod" },
      "runsOn" : { "ref" : "EmrCluster.1" },
      "hiveScript" : "insert overwrite table ${output1} select * from ${input1} ;"
    },
    {
      "id" : "ResourcePeriod",
      "name" : "ResourcePeriod",
      "type" : "Schedule",
      "period" : "1 day",
      "startDateTime" : "2012-05-04T00:00:00",
      "endDateTime" : "2012-05-05T00:00:00"
    }
  ]
}
```

## Syntax
<a name="dynamodbdataformat-syntax"></a>


****  

| Optionale Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| column | Der Spaltenname mit dem Datentyp, der von jedem Feld für die Daten angegeben wird, die von diesem Datenknoten beschrieben werden. Beispiel, hostname STRING. Verwenden Sie für mehrere Werte Spaltennamen und Datentypen, die durch ein Leerzeichen getrennt sind. | Zeichenfolge | 
| übergeordneter | Das übergeordnetes Objekt des aktuellen Objekts, aus dem Slots übernommen werden. | Referenzobjekt, z. B. „parent“: \$1"ref“:“ myBaseObject Id "\$1 | 

 


****  

| Laufzeitfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @Version | Die Pipeline-Version, mit der das Objekt erstellt wurde | Zeichenfolge | 

 


****  

| Systemfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @error | Der Fehler mit einer Beschreibung des falsch formatierten Objekts. | Zeichenfolge | 
| @pipelineId | Die Id der Pipeline, zu der dieses Objekt gehört. | Zeichenfolge | 
| @sphere | Die Kugel eines Objekts bezeichnet seinen Platz im Lebenszyklus: Komponentenobjekte ergeben Instance-Objekte, die Versuchsobjekte ausführen. | Zeichenfolge | 

# Dynamo DBExport DataFormat
<a name="dp-object-dynamodbexportdataformat"></a>

Wendet ein Schema auf eine DynamoDB-Tabelle an, um sie über eine Hive-Abfrage zugänglich zu machen. Verwenden Sie `DynamoDBExportDataFormat` zusammen mit einem `HiveCopyActivity`-Objekt und `DynamoDBDataNode` oder der `S3DataNode`-Ein- und Ausgabe. `DynamoDBExportDataFormat` hat folgende Vorteile: 
+ Bietet sowohl DynamoDB- als auch Amazon S3 S3-Unterstützung
+ Ermöglicht das Filtern von Daten nach bestimmten Spalten in der Hive-Abfrage
+ Exportiert alle Attribute aus DynamoDB, auch wenn Sie ein dünnes Schema haben

**Anmerkung**  
Boolesche DynamoDB-Typen sind nicht zu booleschen Hive-Typen zugeordnet. Es ist aber möglich, DynamoDB-Ganzzahlwerte von 0 oder 1 den booleschen Hive-Typen zuzuordnen.

## Beispiel
<a name="dynamodbexportdataformat-example"></a>

Das folgende Beispiel zeigt, wie Sie mit `HiveCopyActivity` und `DynamoDBExportDataFormat` Daten von einem `DynamoDBDataNode` auf einen anderen kopieren können, während gleichzeitig Daten basierend auf einem Zeitstempel gefiltert werden.

```
{
  "objects": [
    {
      "id" : "DataFormat.1",
      "name" : "DataFormat.1",
      "type" : "DynamoDBExportDataFormat",
      "column" : "timeStamp BIGINT"
    },
    {
      "id" : "DataFormat.2",
      "name" : "DataFormat.2",
      "type" : "DynamoDBExportDataFormat"
    },
    {
      "id" : "DynamoDBDataNode.1",
      "name" : "DynamoDBDataNode.1",
      "type" : "DynamoDBDataNode",
      "tableName" : "item_mapped_table_restore_temp",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.1" }
    },
    {
      "id" : "DynamoDBDataNode.2",
      "name" : "DynamoDBDataNode.2",
      "type" : "DynamoDBDataNode",
      "tableName" : "restore_table",
      "region" : "us_west_1",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.2" }
    },
    {
      "id" : "EmrCluster.1",
      "name" : "EmrCluster.1",
      "type" : "EmrCluster",
      "schedule" : { "ref" : "ResourcePeriod" },
      "masterInstanceType" : "m1.xlarge",
      "coreInstanceCount" : "4"
    },
    {
      "id" : "HiveTransform.1",
      "name" : "Hive Copy Transform.1",
      "type" : "HiveCopyActivity",
      "input" : { "ref" : "DynamoDBDataNode.1" },
      "output" : { "ref" : "DynamoDBDataNode.2" },
      "schedule" : { "ref" : "ResourcePeriod" },
      "runsOn" : { "ref" : "EmrCluster.1" },
      "filterSql" : "`timeStamp` > unix_timestamp(\"#{@scheduledStartTime}\", \"yyyy-MM-dd'T'HH:mm:ss\")"
    },
    {
      "id" : "ResourcePeriod",
      "name" : "ResourcePeriod",
      "type" : "Schedule",
      "period" : "1 Hour",
      "startDateTime" : "2013-06-04T00:00:00",
      "endDateTime" : "2013-06-04T01:00:00"
    }
  ]
}
```

## Syntax
<a name="dynamodbexportdataformat-syntax"></a>


****  

| Optionale Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| column | Spaltenname mit Datentyp, der von jedem Feld für die Daten angegeben wird, die von diesem Datenknoten beschrieben werden. Beispiel: hostname STRING | Zeichenfolge | 
| übergeordneter | Übergeordnetes Objekt des aktuellen Objekts, aus dem Slots übernommen werden. | Referenzobjekt, z. B. „parent“: \$1"ref“:“ myBaseObject Id "\$1 | 

 


****  

| Laufzeitfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @Version | Pipeline-Version, mit der das Objekt erstellt wurde. | Zeichenfolge | 

 


****  

| Systemfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @error | Fehler mit einer Beschreibung des falsch formatierten Objekts | Zeichenfolge | 
| @pipelineId | Id der Pipeline, zu der dieses Objekt gehört | Zeichenfolge | 
| @sphere | Die Kugel eines Objekts bezeichnet seinen Platz im Lebenszyklus: Komponentenobjekte ergeben Instance-Objekte, die Versuchsobjekte ausführen | Zeichenfolge | 

# RegEx Datenformat
<a name="dp-object-regex"></a>

Ein benutzerdefiniertes Datenformat, das durch einen regulären Ausdruck definiert wird.

## Beispiel
<a name="regex-example"></a>

Es folgt ein Beispiel für diesen Objekttyp. 

```
{
  "id" : "MyInputDataType",
  "type" : "RegEx",
  "inputRegEx" : "([^ ]*) ([^ ]*) ([^ ]*) (-|\\[[^\\]]*\\]) ([^ \"]*|\"[^\"]*\") (-|[0-9]*) (-|[0-9]*)(?: ([^ \"]*|\"[^\"]*\") ([^ \"]*|\"[^\"]*\"))?",
  "outputFormat" : "%1$s %2$s %3$s %4$s %5$s %6$s %7$s %8$s %9$s",
  "column" : [
    "host STRING",
    "identity STRING",
    "user STRING",
    "time STRING",
    "request STRING",
    "status STRING",
    "size STRING",
    "referer STRING",
    "agent STRING"
  ]
}
```

## Syntax
<a name="regex-syntax"></a>


****  

| Optionale Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| column | Spaltenname mit Datentyp, der von jedem Feld für die Daten angegeben wird, die von diesem Datenknoten beschrieben werden. Beispiel: Bei Hostname STRING verwenden Sie für mehrere Werte Spaltennamen und Datentypen, die durch ein Leerzeichen getrennt sind. | Zeichenfolge | 
| inputRegEx | Der reguläre Ausdruck zum Analysieren einer S3-Eingabedatei. inputRegEx bietet eine Möglichkeit, Spalten aus relativ unstrukturierten Daten in einer Datei abzurufen. | Zeichenfolge | 
| outputFormat | Die Spaltenfelder wurden von %1\$1s %2\$1s abgerufen inputRegEx, aber mithilfe der Java-Formatierungssyntax als %1\$1s %2\$1s referenziert. | Zeichenfolge | 
| übergeordneter | Übergeordnetes Objekt des aktuellen Objekts, aus dem Slots übernommen werden. | Referenzobjekt, z. B. „parent“: \$1"ref“:“ Id "\$1 myBaseObject | 

 


****  

| Laufzeitfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @Version | Pipeline-Version, mit der das Objekt erstellt wurde. | Zeichenfolge | 

 


****  

| Systemfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @error | Fehler mit einer Beschreibung des falsch formatierten Objekts | Zeichenfolge | 
| @pipelineId | Id der Pipeline, zu der dieses Objekt gehört | Zeichenfolge | 
| @sphere | Die Kugel eines Objekts bezeichnet seinen Platz im Lebenszyklus: Komponentenobjekte ergeben Instance-Objekte, die Versuchsobjekte ausführen | Zeichenfolge | 

# TSV-Datenformate
<a name="dp-object-tsv"></a>

Ein durch Kommas getrenntes Datenformat, bei dem das Trennzeichen für Spalten ein Tabulatorzeichen und das Datensatztrennzeichen ein Zeilenumbruch ist.

## Beispiel
<a name="tsv-example"></a>

Es folgt ein Beispiel für diesen Objekttyp. 

```
{
  "id" : "MyOutputDataType",
  "type" : "TSV",
  "column" : [
    "Name STRING",
    "Score INT",
    "DateOfBirth TIMESTAMP"
  ]
}
```

## Syntax
<a name="tsv-syntax"></a>


****  

| Optionale Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| column | Spaltenname und Datentyp der Daten, die von diesem Datenknoten beschrieben werden. So gibt "Name STRING" eine Spalte mit dem Namen Name und dem Datentyp STRING an. Trennen Sie mehrere Spaltenname/Datentyp-Paare durch Kommas (wie im Beispiel gezeigt). | Zeichenfolge | 
| columnSeparator | Das Zeichen, mit dem die Felder einer Spalte von den Feldern der nächsten Spalte getrennt werden. Standardeinstellung: "\$1t". | Zeichenfolge | 
| escapeChar | Ein Zeichen (z. B."\$1"), das den Parser anweist, das nächste Zeichen zu ignorieren. | Zeichenfolge | 
| übergeordneter | Übergeordnetes Objekt des aktuellen Objekts, aus dem Slots übernommen werden. | Referenzobjekt, zum Beispiel „parent“: \$1"ref“:“ myBaseObject Id "\$1 | 
| recordSeparator | Das Zeichen, das die Datensätze voneinander trennt. Standardeinstellung: "\$1n". | Zeichenfolge | 

 


****  

| Laufzeitfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @Version | Pipeline-Version, mit der das Objekt erstellt wurde | Zeichenfolge | 

 


****  

| Systemfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @error | Fehler mit einer Beschreibung des falsch formatierten Objekts. | Zeichenfolge | 
| @pipelineId | ID der Pipeline, zu der dieses Objekt gehört. | Zeichenfolge | 
| @sphere | Die Kugel eines Objekts bezeichnet seinen Platz im Lebenszyklus: Komponentenobjekte ergeben Instance-Objekte, die Versuchsobjekte ausführen. | Zeichenfolge | 

# Aktionen
<a name="dp-object-actions"></a>

Im Folgenden sind die AWS Data Pipeline Aktionsobjekte aufgeführt:

**Topics**
+ [SnsAlarm](dp-object-snsalarm.md)
+ [Beenden](dp-object-terminate.md)

# SnsAlarm
<a name="dp-object-snsalarm"></a>

 Sendet eine Amazon SNS SNS-Benachrichtigung, wenn eine Aktivität fehlschlägt oder erfolgreich abgeschlossen wird. 

## Beispiel
<a name="snsalarm-example"></a>

Es folgt ein Beispiel für diesen Objekttyp. Die Werte für `node.input` und `node.output` stammen vom Datenknoten oder der Aktivität, die im Feld `onSuccess` auf dieses Objekt verweist. 

```
{
  "id" : "SuccessNotify",
  "name" : "SuccessNotify",
  "type" : "SnsAlarm",
  "topicArn" : "arn:aws:sns:us-east-1:28619EXAMPLE:ExampleTopic",
  "subject" : "COPY SUCCESS: #{node.@scheduledStartTime}",
  "message" : "Files were copied from #{node.input} to #{node.output}."
}
```

## Syntax
<a name="snsalarm-syntax"></a>


****  

| Pflichtfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| Nachricht | Der Textkörper der Amazon SNS-Benachrichtigung. | Zeichenfolge | 
| role | Die IAM-Rolle für die Erstellung des Amazon SNS-Alarms. | Zeichenfolge | 
| subject | Die Betreffzeile der Amazon SNS-Benachrichtigung. | Zeichenfolge | 
| topicArn | Der Amazon SNS-Thema-Ziel-ARN für die Nachricht. | Zeichenfolge | 

 


****  

| Optionale Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| übergeordneter | Übergeordnetes Objekt des aktuellen Objekts, aus dem Slots übernommen werden. | Referenzobjekt, z. B. „parent“: \$1"ref“:“ myBaseObject Id "\$1 | 

 


****  

| Laufzeitfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| node | Der Knoten, für den diese Aktion ausgeführt wird. | Referenzobjekt, z. B. „node“: \$1"ref“:“ myRunnableObject Id "\$1 | 
| @Version | Pipeline-Version, mit der das Objekt erstellt wurde. | Zeichenfolge | 

 


****  

| Systemfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @error | Fehler mit einer Beschreibung des falsch formatierten Objekts. | Zeichenfolge | 
| @pipelineId | Id der Pipeline, zu der dieses Objekt gehört. | Zeichenfolge | 
| @sphere | Die Kugel eines Objekts bezeichnet seinen Platz im Lebenszyklus: Komponentenobjekte ergeben Instance-Objekte, die Versuchsobjekte ausführen. | Zeichenfolge | 

# Beenden
<a name="dp-object-terminate"></a>

Eine Aktion, die den Abbruch einer ausstehenden oder noch nicht abgeschlossenen Aktivität, Ressource oder eines Datenknotens auslöst. AWS Data Pipeline versucht, die Aktivität, die Ressource oder den Datenknoten in den Status CANCELLED zu versetzen, wenn nicht mit dem `lateAfterTimeout` Wert begonnen wird. 

Sie können keine Aktionen beenden, die `onSuccess`-, `OnFail`- oder `onLateAction`-Ressourcen beinhalten.

## Beispiel
<a name="terminate-example"></a>

Es folgt ein Beispiel für diesen Objekttyp. Bei diesem Beispiel enthält das Feld `onLateAction` `MyActivity` einen Verweis auf die Aktion `DefaultAction1`. Wenn Sie eine Aktion für `onLateAction` bereitstellen, müssen Sie auch einen `lateAfterTimeout`-Wert für den Zeitraum seit dem geplanten Start der Pipeline festlegen, nach dem die Aktivität als verspätet betrachtet wird.

```
{
  "name" : "MyActivity",
  "id" : "DefaultActivity1",
  "schedule" : {
    "ref" : "MySchedule"
  },
  "runsOn" : {
    "ref" : "MyEmrCluster"
  },
  "lateAfterTimeout" : "1 Hours",
  "type" : "EmrActivity",
  "onLateAction" : {
    "ref" : "DefaultAction1"
  },
  "step" : [
    "s3://amzn-s3-demo-bucket/myPath/myStep.jar,firstArg,secondArg",
    "s3://amzn-s3-demo-bucket/myPath/myOtherStep.jar,anotherArg"
  ]
},
{
  "name" : "TerminateTasks",
  "id" : "DefaultAction1",
  "type" : "Terminate"
}
```

## Syntax
<a name="terminate-syntax"></a>


****  

| Optionale Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| übergeordneter | Übergeordnetes Objekt des aktuellen Objekts, aus dem Slots übernommen werden. | Referenzobjekt, zum Beispiel „parent“: \$1"ref“:“ myBaseObject Id "\$1 | 

 


****  

| Laufzeitfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| node | Der Knoten, für den diese Aktion ausgeführt wird. | Referenzobjekt, zum Beispiel „node“: \$1"ref“:“ myRunnableObject Id "\$1 | 
| @Version | Pipeline-Version, mit der das Objekt erstellt wurde | Zeichenfolge | 

 


****  

| Systemfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @error | Fehler mit einer Beschreibung des falsch formatierten Objekts. | Zeichenfolge | 
| @pipelineId | ID der Pipeline, zu der dieses Objekt gehört. | Zeichenfolge | 
| @sphere | Die Kugel eines Objekts bezeichnet seinen Platz im Lebenszyklus: Komponentenobjekte ergeben Instance-Objekte, die Versuchsobjekte ausführen. | Zeichenfolge | 

# Plan
<a name="dp-object-schedule"></a>

Legt den Zeitplan für ein geplantes Ereignis fest, z. B. die Ausführung einer Aktivität.

**Anmerkung**  
Wenn die Startzeit eines Zeitplans in der Vergangenheit liegt, AWS Data Pipeline füllt Ihre Pipeline erneut auf und beginnt sofort mit der Planung von Läufen ab der angegebenen Startzeit. Wählen Sie für Tests/Entwicklung ein relativ kurzes Intervall. Andernfalls wird AWS Data Pipeline versucht, alle Läufe Ihrer Pipeline für dieses Intervall in eine Warteschlange zu stellen und zu planen. AWS Data Pipeline versucht, versehentliche Backfills zu verhindern, wenn die Pipeline-Komponente `scheduledStartTime` vor einem Tag installiert wurde, indem die Pipeline-Aktivierung blockiert wird.

## Beispiele
<a name="schedule-example"></a>

Es folgt ein Beispiel für diesen Objekttyp. Es definiert einen Zeitplan für jede Stunde ab 00:00:00 Uhr am 01.09.2012 bis um 00:00:00 Uhr am 01.10.2012. Der erste Zeitraum endet um 01:00:00 Uhr am 01.09.2012.

```
{
  "id" : "Hourly",
  "type" : "Schedule",
  "period" : "1 hours",
  "startDateTime" : "2012-09-01T00:00:00",
  "endDateTime" : "2012-10-01T00:00:00"
}
```

Die folgende Pipeline startet um `FIRST_ACTIVATION_DATE_TIME` und wird jede Stunde bis um 22:00:00 Uhr am 25.04.2014 ausgeführt.

```
{
     "id": "SchedulePeriod",
     "name": "SchedulePeriod",
     "startAt": "FIRST_ACTIVATION_DATE_TIME",
     "period": "1 hours",
     "type": "Schedule",
     "endDateTime": "2014-04-25T22:00:00"
   }
```

Die folgende Pipeline startet um `FIRST_ACTIVATION_DATE_TIME` und wird jede Stunde ausgeführt. Nach dreimaliger Ausführung ist sie abgeschlossen.

```
{
     "id": "SchedulePeriod",
     "name": "SchedulePeriod",
     "startAt": "FIRST_ACTIVATION_DATE_TIME",
     "period": "1 hours",
     "type": "Schedule",
     "occurrences": "3"
   }
```

Die folgende Pipeline beginnt um 22:00:00 Uhr am 25.04.2014, wird stündlich ausgeführt und endet nach dreimaliger Ausführung.

```
{
     "id": "SchedulePeriod",
     "name": "SchedulePeriod",
     "startDateTime": "2014-04-25T22:00:00",
     "period": "1 hours",
     "type": "Schedule",
     "occurrences": "3"
   }
```

On-Demand mit dem Standardobjekt

```
{
  "name": "Default",
  "resourceRole": "DataPipelineDefaultResourceRole",
  "role": "DataPipelineDefaultRole",
  "scheduleType": "ondemand"
}
```

On-demand mit explizitem Zeitplanobjekt

```
{
  "name": "Default",
  "resourceRole": "DataPipelineDefaultResourceRole",
  "role": "DataPipelineDefaultRole",
  "scheduleType": "ondemand"
},
{
  "name": "DefaultSchedule",
  "type": "Schedule",
  "id": "DefaultSchedule",
  "period": "ONDEMAND_PERIOD",
  "startAt": "ONDEMAND_ACTIVATION_TIME"
},
```

Die folgenden Beispiele zeigen, wie ein Zeitplan vom Standardobjekt übernommen werden kann, explizit für das Objekt festgelegt werden kann oder durch eine übergeordnete Objektreferenz übergeben werden kann:

Zeitplan vom Standardobjekt übernommen

```
{
  "objects": [
  {       
      "id": "Default",
      "failureAndRerunMode":"cascade",
      "resourceRole": "DataPipelineDefaultResourceRole",
      "role": "DataPipelineDefaultRole",
      "pipelineLogUri": "s3://myLogsbucket",
      "scheduleType": "cron",
      "schedule": {
        "ref": "DefaultSchedule"
      }
   },
   {
      "type": "Schedule",
      "id": "DefaultSchedule",
      "occurrences": "1",
      "period": "1 Day",
      "startAt": "FIRST_ACTIVATION_DATE_TIME"
    },
    { 
      "id": "A_Fresh_NewEC2Instance",
      "type": "Ec2Resource",
      "terminateAfter": "1 Hour"
    },
    {
      "id": "ShellCommandActivity_HelloWorld",
      "runsOn": {
        "ref": "A_Fresh_NewEC2Instance"
      },
      "type": "ShellCommandActivity",
      "command": "echo 'Hello World!'"
    }
  ]
}
```

Expliziter Zeitplan für das Objekt

```
{
  "objects": [
  {       
      "id": "Default",
      "failureAndRerunMode":"cascade",
      "resourceRole": "DataPipelineDefaultResourceRole",
      "role": "DataPipelineDefaultRole",
      "pipelineLogUri": "s3://myLogsbucket",
      "scheduleType": "cron"
      
   },
   {
      "type": "Schedule",
      "id": "DefaultSchedule",
      "occurrences": "1",
      "period": "1 Day",
      "startAt": "FIRST_ACTIVATION_DATE_TIME"
    },
    { 
      "id": "A_Fresh_NewEC2Instance",
      "type": "Ec2Resource",
      "terminateAfter": "1 Hour"
    },
    {
      "id": "ShellCommandActivity_HelloWorld",
      "runsOn": {
        "ref": "A_Fresh_NewEC2Instance"
      },
      "schedule": {
        "ref": "DefaultSchedule"
      },
      "type": "ShellCommandActivity",
      "command": "echo 'Hello World!'"
    }
  ]
}
```

Zeitplan von übergeordneter Referenz

```
{
  "objects": [
  {       
      "id": "Default",
      "failureAndRerunMode":"cascade",
      "resourceRole": "DataPipelineDefaultResourceRole",
      "role": "DataPipelineDefaultRole",
      "pipelineLogUri": "s3://myLogsbucket",
      "scheduleType": "cron"
      
   },
   {       
      "id": "parent1",
      "schedule": {
        "ref": "DefaultSchedule"
      }
      
   },
   {
      "type": "Schedule",
      "id": "DefaultSchedule",
      "occurrences": "1",
      "period": "1 Day",
      "startAt": "FIRST_ACTIVATION_DATE_TIME"
    },
    { 
      "id": "A_Fresh_NewEC2Instance",
      "type": "Ec2Resource",
      "terminateAfter": "1 Hour"
    },
    {
      "id": "ShellCommandActivity_HelloWorld",
      "runsOn": {
        "ref": "A_Fresh_NewEC2Instance"
      },
      "parent": {
        "ref": "parent1"
      },
      "type": "ShellCommandActivity",
      "command": "echo 'Hello World!'"
    }
  ]
}
```

## Syntax
<a name="schedule-syntax"></a>


****  

| Pflichtfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| Zeitraum | Die vorgesehene Häufigkeit der Pipeline-Ausführung. Das Format ist "N [Minuten \$1 Stunden \$1 Tage \$1 Wochen \$1 Monate]", wobei N eine Zahl gefolgt von einem der Zeitspezifizierer ist. Beispiel: "15 Minuten", führt die Pipeline alle 15 Minuten aus. Der Mindestzeitraum beträgt 15 Minuten und der maximale Zeitraum beträgt 3 Jahre. | Zeitraum | 

 


****  

| Erforderliche Gruppe (mindestens eine der folgenden ist erforderlich) | Description | Slot-Typ | 
| --- | --- | --- | 
| startAt | Das Datum und der Zeitpunkt, an dem die geplante Pipeline gestartet werden soll. Der gültige Wert ist FIRST\$1ACTIVATION\$1DATE\$1TIME, der zugunsten der Erstellung einer bedarfsgesteuerten Pipeline als veraltet markiert ist. | Aufzählung | 
| startDateTime | Das Datum und die Uhrzeit zum Starten der geplanten Ausführungen. Sie müssen entweder startDateTime oder StartAt verwenden, aber nicht beide. | DateTime | 

 


****  

| Optionale Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| endDateTime | Das Datum und die Uhrzeit zum Starten der geplanten Ausführungen. Muss ein Datum und eine Uhrzeit nach dem Wert von startDateTime oder StartAt liegen. Das Standardverhalten besteht darin, Ausführungen so lange zu planen, bis die Pipeline heruntergefahren wird.  | DateTime | 
| Ereignisse | Gibt an, wie oft die Pipeline ausgeführt werden soll, nachdem sie aktiviert wurde. Sie können keine Vorkommen mit verwenden. endDateTime | Ganzzahl | 
| übergeordneter | Übergeordnetes Objekt des aktuellen Objekts, aus dem Slots übernommen werden. | Referenzobjekt, z. B. „parent“: \$1"ref“:“ myBaseObject Id "\$1 | 

 


****  

| Laufzeitfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @Version | Pipeline-Version, mit der das Objekt erstellt wurde. | Zeichenfolge | 

 


****  

| Systemfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @error | Fehler mit einer Beschreibung des falsch formatierten Objekts | Zeichenfolge | 
| @firstActivationTime | Zeit der Objekterstellung. | DateTime | 
| @pipelineId | Id der Pipeline, zu der dieses Objekt gehört | Zeichenfolge | 
| @sphere | Die Kugel eines Objekts bezeichnet seinen Platz im Lebenszyklus: Komponentenobjekte ergeben Instance-Objekte, die Versuchsobjekte ausführen | Zeichenfolge | 

# Dienstprogramme
<a name="dp-object-utilities"></a>

Die folgenden Dienstprogrammobjekte konfigurieren andere Pipeline-Objekte:

**Topics**
+ [ShellScriptConfig](dp-object-shellscriptconfig.md)
+ [EmrConfiguration](dp-object-emrconfiguration.md)
+ [Eigenschaft](dp-object-property.md)

# ShellScriptConfig
<a name="dp-object-shellscriptconfig"></a>

Wird zusammen mit einer Aktivität verwendet, um ein Shell-Skript für preActivityTask Config und postActivityTask Config auszuführen. Dieses Objekt ist für [HadoopActivity](dp-object-hadoopactivity.md), [HiveActivity[HiveCopyActivity](dp-object-hivecopyactivity.md)](dp-object-hiveactivity.md), und verfügbar [PigActivity](dp-object-pigactivity.md). Sie geben einen S3-URI und eine Liste von Argumenten für das Skript an.

## Beispiel
<a name="shellscriptconfig-example"></a>

A ShellScriptConfig mit Argumenten:

```
{
   "id" : "ShellScriptConfig_1”,
   "name" : “prescript”,
   "type" : "ShellScriptConfig",
   "scriptUri": “s3://my-bucket/shell-cleanup.sh”,
   "scriptArgument" : ["arg1","arg2"]
 }
```

## Syntax
<a name="shellscriptconfig-syntax"></a>

Dieses Objekt enthält die folgenden Felder.


****  

| Optionale Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| übergeordneter | Übergeordnetes Objekt des aktuellen Objekts, aus dem Slots übernommen werden. | Referenzobjekt, zum Beispiel „parent“: \$1"ref“:“ myBaseObject Id "\$1 | 
| scriptArgument | Eine Liste der Argumente für das Shell-Skript | Zeichenfolge | 
| scriptUri | Der URI des Skripts in Amazon S3, das heruntergeladen und ausgeführt werden soll. | Zeichenfolge | 

 


****  

| Laufzeitfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @Version | Pipeline-Version, mit der das Objekt erstellt wurde | Zeichenfolge | 

 


****  

| Systemfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @error | Fehler mit einer Beschreibung des falsch formatierten Objekts. | Zeichenfolge | 
| @pipelineId | ID der Pipeline, zu der dieses Objekt gehört. | Zeichenfolge | 
| @sphere | Die Kugel eines Objekts bezeichnet seinen Platz im Lebenszyklus: Komponentenobjekte ergeben Instance-Objekte, die Versuchsobjekte ausführen. | Zeichenfolge | 

# EmrConfiguration
<a name="dp-object-emrconfiguration"></a>

Das EmrConfiguration Objekt ist die Konfiguration, die für EMR-Cluster mit Versionen 4.0.0 oder höher verwendet wird. Konfigurationen (als Liste) sind ein Parameter für den RunJobFlow API-Aufruf. Die Konfigurations-API für Amazon EMR verwendet eine Klassifizierung und Eigenschaften. AWS Data Pipeline verwendet EmrConfiguration mit entsprechenden Property-Objekten, um eine [EmrCluster](dp-object-emrcluster.md) Anwendung wie Hadoop, Hive, Spark oder Pig auf EMR-Clustern zu konfigurieren, die in einer Pipeline-Ausführung gestartet wurden. Da die Konfiguration nur für neue Cluster geändert werden kann, können Sie kein EmrConfiguration Objekt für vorhandene Ressourcen bereitstellen. Weitere Informationen finden Sie unter [https://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide/](https://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide/).

## Beispiel
<a name="emrconfiguration-example"></a>

Das folgende Konfigurationsobjekt legt die `io.file.buffer.size` und `fs.s3.block.size` Eigenschaften in `core-site.xml` fest:

```
[
   {  
      "classification":"core-site",
      "properties":
      {
         "io.file.buffer.size": "4096",
         "fs.s3.block.size": "67108864"
      }
   }
]
```

Die entsprechende Pipeline-Objektdefinition verwendet ein EmrConfiguration Objekt und eine Liste von Property-Objekten im `property` Feld:

```
{
  "objects": [
    {
      "name": "ReleaseLabelCluster",
      "releaseLabel": "emr-4.1.0",
      "applications": ["spark", "hive", "pig"],
      "id": "ResourceId_I1mCc",
      "type": "EmrCluster",
      "configuration": {
        "ref": "coresite"
      }
    },
    {
      "name": "coresite",
      "id": "coresite",
      "type": "EmrConfiguration",
      "classification": "core-site",
      "property": [{
        "ref": "io-file-buffer-size"
      },
      {
        "ref": "fs-s3-block-size"
      }
      ]
    },
    {
      "name": "io-file-buffer-size",
      "id": "io-file-buffer-size",
      "type": "Property",
      "key": "io.file.buffer.size",
      "value": "4096"
    },
    {
      "name": "fs-s3-block-size",
      "id": "fs-s3-block-size",
      "type": "Property",
      "key": "fs.s3.block.size",
      "value": "67108864"
    }
  ]
}
```

Im folgenden Beispiel wird eine verschachtelte Konfiguration verwendet, um die Hadoop-Umgebung mit der `hadoop-env`-Klassifizierung festzulegen:

```
[
  {
    "classification": "hadoop-env",
    "properties": {},
    "configurations": [
      {
        "classification": "export",
        "properties": {
          "YARN_PROXYSERVER_HEAPSIZE": "2396"
        }
      }
    ]
  }
]
```

Nachfolgend ist das entsprechende Pipeline-Definitionsobjekt mit dieser Konfiguration:

```
{
  "objects": [
    {
      "name": "ReleaseLabelCluster",
      "releaseLabel": "emr-4.0.0",
      "applications": ["spark", "hive", "pig"],
      "id": "ResourceId_I1mCc",
      "type": "EmrCluster",
      "configuration": {
        "ref": "hadoop-env"
      }
    },
    {
      "name": "hadoop-env",
      "id": "hadoop-env",
      "type": "EmrConfiguration",
      "classification": "hadoop-env",
      "configuration": {
        "ref": "export"
      }
    },
    {
      "name": "export",
      "id": "export",
      "type": "EmrConfiguration",
      "classification": "export",
      "property": {
        "ref": "yarn-proxyserver-heapsize"
      }
    },
    {
      "name": "yarn-proxyserver-heapsize",
      "id": "yarn-proxyserver-heapsize",
      "type": "Property",
      "key": "YARN_PROXYSERVER_HEAPSIZE",
      "value": "2396"
    },
  ]
}
```

Im folgenden Beispiel wird eine HIVE-spezifische Eigenschaft für einen EMR-Cluster geändert:

```
{
    "objects": [
        {
            "name": "hivesite",
            "id": "hivesite",
            "type": "EmrConfiguration",
            "classification": "hive-site",
            "property": [
                {
                    "ref": "hive-client-timeout"
                }
            ]
        },
        {
            "name": "hive-client-timeout",
            "id": "hive-client-timeout",
            "type": "Property",
            "key": "hive.metastore.client.socket.timeout",
            "value": "2400s"
        }
    ]
}
```

## Syntax
<a name="emrconfiguration-syntax"></a>

Dieses Objekt enthält die folgenden Felder.


****  

| Pflichtfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| Klassifizierung | Klassifizierung für die Konfiguration. | Zeichenfolge | 

 


****  

| Optionale Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| configuration | Unterkonfiguration für diese Konfiguration. | Referenzobjekt, z. B. „configuration“: \$1"ref“:“ Id "\$1 myEmrConfiguration | 
| übergeordneter | Übergeordnetes Objekt des aktuellen Objekts, aus dem Slots übernommen werden. | Referenzobjekt, z. B. „parent“: \$1"ref“:“ myBaseObject Id "\$1 | 
| property | Konfigurationseigenschaft | Referenzobjekt, z. B. „Eigenschaft“: \$1"ref“:“ myPropertyId „\$1 | 

 


****  

| Laufzeitfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @Version | Pipeline-Version, mit der das Objekt erstellt wurde. | Zeichenfolge | 

 


****  

| Systemfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @error | Fehler mit einer Beschreibung des falsch formatierten Objekts | Zeichenfolge | 
| @pipelineId | Id der Pipeline, zu der dieses Objekt gehört | Zeichenfolge | 
| @sphere | Die Kugel eines Objekts bezeichnet seinen Platz im Lebenszyklus: Komponentenobjekte ergeben Instance-Objekte, die Versuchsobjekte ausführen | Zeichenfolge | 

## Weitere Informationen finden Sie unter:
<a name="emrconfiguration-seealso"></a>
+ [EmrCluster](dp-object-emrcluster.md)
+ [Eigenschaft](dp-object-property.md)
+ [Amazon EMR-Versionshinweise](https://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide/)

# Eigenschaft
<a name="dp-object-property"></a>

Eine einzelne Schlüssel-Wert-Eigenschaft zur Verwendung mit einem Objekt EmrConfiguration .

## Beispiel
<a name="property-example"></a>

Die folgende Pipeline-Definition zeigt ein EmrConfiguration Objekt und die entsprechenden Eigenschaftsobjekte zum Starten eines: EmrCluster

```
{
  "objects": [
    {
      "name": "ReleaseLabelCluster",
      "releaseLabel": "emr-4.1.0",
      "applications": ["spark", "hive", "pig"],
      "id": "ResourceId_I1mCc",
      "type": "EmrCluster",
      "configuration": {
        "ref": "coresite"
      }
    },
    {
      "name": "coresite",
      "id": "coresite",
      "type": "EmrConfiguration",
      "classification": "core-site",
      "property": [{
        "ref": "io-file-buffer-size"
      },
      {
        "ref": "fs-s3-block-size"
      }
      ]
    },
    {
      "name": "io-file-buffer-size",
      "id": "io-file-buffer-size",
      "type": "Property",
      "key": "io.file.buffer.size",
      "value": "4096"
    },
    {
      "name": "fs-s3-block-size",
      "id": "fs-s3-block-size",
      "type": "Property",
      "key": "fs.s3.block.size",
      "value": "67108864"
    }
  ]
}
```

## Syntax
<a name="property-syntax"></a>

Dieses Objekt enthält die folgenden Felder.


****  

| Pflichtfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| Schlüssel | Schlüssel | Zeichenfolge | 
| value | value | Zeichenfolge | 

 


****  

| Optionale Felder | Description | Slot-Typ | 
| --- | --- | --- | 
| übergeordneter | Übergeordnetes Objekt des aktuellen Objekts, aus dem Slots übernommen werden. | Referenzobjekt, zum Beispiel „parent“: \$1"ref“:“ myBaseObject Id "\$1 | 

 


****  

| Laufzeitfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @Version | Pipeline-Version, mit der das Objekt erstellt wurde | Zeichenfolge | 

 


****  

| Systemfelder | Description | Slot-Typ | 
| --- | --- | --- | 
| @error | Fehler mit einer Beschreibung des falsch formatierten Objekts. | Zeichenfolge | 
| @pipelineId | ID der Pipeline, zu der dieses Objekt gehört. | Zeichenfolge | 
| @sphere | Die Kugel eines Objekts bezeichnet seinen Platz im Lebenszyklus: Komponentenobjekte ergeben Instance-Objekte, die Versuchsobjekte ausführen. | Zeichenfolge | 

## Weitere Informationen finden Sie unter:
<a name="property-seealso"></a>
+ [EmrCluster](dp-object-emrcluster.md)
+ [EmrConfiguration](dp-object-emrconfiguration.md)
+ [Amazon EMR-Versionshinweise](https://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide/)