

AWS Data Pipeline n'est plus disponible pour les nouveaux clients. Les clients existants de AWS Data Pipeline peuvent continuer à utiliser le service normalement. [En savoir plus](https://aws.amazon.com/blogs/big-data/migrate-workloads-from-aws-data-pipeline/)

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Référence d'objet de pipeline
<a name="dp-pipeline-objects"></a>

Vous pouvez utiliser les objets et composants suivants dans la définition du pipeline.

**Topics**
+ [Nœuds de données](dp-object-datanodes.md)
+ [Activités](dp-object-activities.md)
+ [Ressources](dp-object-resources.md)
+ [Conditions préalables](dp-object-preconditions.md)
+ [Bases de données](dp-object-databases.md)
+ [Formats de données](dp-object-dataformats.md)
+ [Actions](dp-object-actions.md)
+ [Planning](dp-object-schedule.md)
+ [Utilitaires](dp-object-utilities.md)

**Note**  
Pour un exemple d'application utilisant le SDK AWS Data Pipeline Java, voir [Data Pipeline DynamoDB Export](https://github.com/awslabs/data-pipeline-samples/tree/master/samples/DynamoDBExportJava) Java Sample on. GitHub

Voici la hiérarchie des objets pour AWS Data Pipeline.

![\[AWS Data Pipeline hiérarchie des objets\]](http://docs.aws.amazon.com/fr_fr/datapipeline/latest/DeveloperGuide/images/object_hierarchy.png)


# Nœuds de données
<a name="dp-object-datanodes"></a>

Les objets du nœud de AWS Data Pipeline données sont les suivants :

**Topics**
+ [Nœud Dynamo DBData](dp-object-dynamodbdatanode.md)
+ [MySqlDataNode](dp-object-mysqldatanode.md)
+ [RedshiftDataNode](dp-object-redshiftdatanode.md)
+ [S3 DataNode](dp-object-s3datanode.md)
+ [SqlDataNode](dp-object-sqldatanode.md)

# Nœud Dynamo DBData
<a name="dp-object-dynamodbdatanode"></a>

 Définit un nœud de données à l'aide de DynamoDB, qui est spécifié comme entrée d'un objet or. `HiveActivity` `EMRActivity` 

**Note**  
L'objet `DynamoDBDataNode` ne prend pas en charge la condition préalable `Exists`.

## Exemple
<a name="dynamodbdatanode-example"></a>

Voici un exemple de ce type d'objet. Cet objet référence deux autres objets que vous pourriez définir dans le même fichier de définition du pipeline. `CopyPeriod` est un objet `Schedule` et `Ready` est un objet de condition préalable.

```
{
  "id" : "MyDynamoDBTable",
  "type" : "DynamoDBDataNode",
  "schedule" : { "ref" : "CopyPeriod" },
  "tableName" : "adEvents",
  "precondition" : { "ref" : "Ready" }
}
```

## Syntaxe
<a name="dynamodbdatanode-syntax"></a>


****  

| Champs obligatoires | Description | Type d'option | 
| --- | --- | --- | 
| tableName | La table DynamoDB. | String | 

 


****  

| Champs d'invocation de l'objet | Description | Type d'option | 
| --- | --- | --- | 
| schedule | Cet objet est appelé dans le cadre de l'exécution d'un intervalle de planification. Les utilisateurs doivent spécifier une référence de planification à un autre objet pour définir l'ordre d'exécution des dépendances de l'objet. Les utilisateurs peuvent satisfaire à cette exigence en définissant explicitement un calendrier sur l'objet, par exemple en spécifiant « schedule » : \$1"ref » : "DefaultSchedule«\$1. Dans la plupart des cas, il est préférable de placer la planification de référence sur l'objet de pipeline par défaut de manière à ce que tous les objets héritent cette planification. Ou, si le pipeline dispose d'une arborescence de planifications (planifications au sein de la planification maître), les utilisateurs peuvent créer un objet parent ayant une référence de planification. Pour obtenir des exemples de configurations de planification facultatives, consultez la section [Planification](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html). | Objet de référence, par exemple, « schedule » : \$1"ref » : » myScheduleId «\$1 | 

 


****  

| Champs facultatifs | Description | Type d'option | 
| --- | --- | --- | 
| attemptStatus | État de l'activité à distance le plus récemment rapporté. | String | 
| attemptTimeout | Délai d'achèvement de la tâche à distance. Si ce champ est défini, une activité à distance qui n'est pas exécutée dans l'intervalle de temps défini au départ peut être retentée. | Period | 
| dataFormat | DataFormat pour les données décrites par ce nœud de données. Actuellement pris en charge pour HiveActivity et HiveCopyActivity. | Objet de référence, « DataFormat » : \$1"ref » « MyDynamo DBData FormatId «\$1 | 
| dependsOn | Spécifie une dépendance sur un autre objet exécutable. | Objet de référence, par exemple « DependsOn » : \$1"ref » : » myActivityId «\$1 | 
| failureAndRerunMode | Décrit le comportement du nœud de consommateurs lorsque les dépendances échouent ou sont à nouveau exécutées. | Énumération | 
| lateAfterTimeout | Temps écoulé après le début du pipeline pendant lequel l'objet doit être terminé. Il est déclenché uniquement lorsque le type de planification n'est pas défini surondemand. | Period | 
| maxActiveInstances | Nombre maximal d'instances actives simultanées d'un composant. Les réexécutions ne sont pas comptabilisées dans le nombre d'instances actives. | Entier | 
| maximumRetries | Nombre maximal de nouvelles tentatives en cas d'échec | Entier | 
| onFail | Action à exécuter en cas d'échec de l'objet actuel. | Objet de référence, par exemple « onFail » : \$1"ref » : » myActionId «\$1 | 
| onLateAction | Actions à déclencher si un objet n'a pas encore été planifié ou n'est toujours pas terminé. | Objet de référence, par exemple "onLateAction« : \$1" ref » : » myActionId «\$1 | 
| onSuccess | Action à exécuter en cas de réussite de l'objet actuel. | Objet de référence, par exemple « onSuccess » : \$1"ref » : » myActionId «\$1 | 
| parent | Parent de l'objet actuel à partir duquel les emplacements sont hérités. | Objet de référence, par exemple « parent » : \$1"ref » : » myBaseObject Id "\$1 | 
| pipelineLogUri | L'URI S3 (tel que 's3 ://BucketName/Key/ ') pour le téléchargement des journaux pour le pipeline. | String | 
| precondition | Définit une condition préalable facultative. Un nœud de données n'est pas marqué « READY » tant que toutes les conditions préalables ne sont pas remplies. | Objet de référence, par exemple « précondition » : \$1"ref » : » myPreconditionId «\$1 | 
| readThroughputPercent | Définit la vitesse des opérations de lecture pour maintenir votre débit DynamoDB dans la plage allouée pour votre table. La valeur est un nombre double compris entre 0,1 et 1,0 (inclus). | Double | 
| region | Code de la région dans laquelle la table DynamoDB existe. Par exemple, us-east-1. Ceci est utilisé HiveActivity lorsqu'il effectue une mise en scène pour les tables DynamoDB dans Hive. | Énumération | 
| reportProgressTimeout | Délai pour les appels successifs de travail à distance adressés à reportProgress. Si une valeur est définie, les activités à distance qui ne font pas état d'avancement pour la période spécifiée doivent être considérées comme bloquées et, par conséquent, retentées. | Period | 
| retryDelay | Délai entre deux nouvelles tentatives. | Period | 
| runsOn | Ressource de calcul pour exécuter l'activité ou la commande. Par exemple, une instance Amazon EC2 ou un cluster Amazon EMR. | Objet de référence, par exemple « RunSon » : \$1"ref » : » myResourceId «\$1 | 
| scheduleType | Le type de planification vous permet de spécifier si les objets de votre définition de pipeline doivent être planifiés au début ou à la fin de l'intervalle. Dans la planification de type séries chronologiques, les instances sont planifiées à la fin de chaque intervalle et dans la planification de type cron, les instances sont planifiées au début de chaque intervalle. Une planification à la demande vous permet d'exécuter un pipeline une fois par activation. Cela signifie que vous n'avez pas à cloner ou à recréer le pipeline pour l'exécuter à nouveau. Si vous utilisez une planification à la demande, elle doit être spécifiée dans l'objet par défaut et être le seul scheduleType pour les objets du pipeline. Pour utiliser des pipelines à la demande, il suffit d'appeler l' ActivatePipeline opération pour chaque exécution suivante. Les valeurs sont : cron, ondemand et timeseries (cron, à la demande et séries chronologiques). | Énumération | 
| workerGroup | Groupe de travail. Utilisé pour les tâches d'acheminement. Si vous fournissez une valeur runsOn et que workerGroup existe, workerGroup est ignoré. | String | 
| writeThroughputPercent | Définit la vitesse des opérations d'écriture pour maintenir votre débit DynamoDB dans la plage allouée pour votre table. La valeur est un nombre double compris entre 0,1 et 1,0 (inclus). | Double | 

 


****  

| Champs liés à l'exécution | Description | Type d'option | 
| --- | --- | --- | 
| @activeInstances | Liste des objets d'instances actives actuellement planifiés. | Objet de référence, par exemple « ActiveInstances » : \$1"ref » : » myRunnableObject Id "\$1 | 
| @actualEndTime | Heure à laquelle l'exécution de l'objet s'est terminée. | DateTime | 
| @actualStartTime | Heure à laquelle l'exécution de l'objet a démarré. | DateTime | 
| cancellationReason | Motif de l'annulation si l'objet a été annulé. | String | 
| @cascadeFailedOn | Description de la chaîne de dépendances sur laquelle l'objet a échoué. | Objet de référence, par exemple "cascadeFailedOn« : \$1" ref » : » myRunnableObject Id "\$1 | 
| emrStepLog | Journaux d'étapes EMR disponibles uniquement sur les tentatives d'activité EMR | String | 
| errorId | ID de l'erreur si l'objet a échoué. | String | 
| errorMessage | errorMessage si l'objet a échoué. | String | 
| errorStackTrace | Suivi de la pile d'erreurs si l'objet a échoué. | String | 
| @finishedTime | Heure à laquelle l'objet a terminé son exécution. | DateTime | 
| hadoopJobLog | Journaux de travail Hadoop disponibles sur les tentatives pour les activités EMR. | String | 
| @healthStatus | État de santé de l'objet qui reflète la réussite ou l'échec de la dernière instance qui a atteint un état résilié. | String | 
| @healthStatusFromInstanceId | ID du dernier objet d'instance qui atteint un état résilié. | String | 
| @ healthStatusUpdated Heure | Heure à laquelle l'état de santé a été mis à jour pour la dernière fois. | DateTime | 
| hostname | Nom d'hôte du client qui a sélectionné la tentative de tâche. | String | 
| @lastDeactivatedTime | Heure à laquelle l'objet a été désactivé pour la dernière fois. | DateTime | 
| @ latestCompletedRun Heure | Heure de la dernière exécution pour laquelle l'exécution s'est terminée. | DateTime | 
| @latestRunTime | Heure de la dernière exécution pour laquelle l'exécution a été planifiée. | DateTime | 
| @nextRunTime | Prochaine heure d'exécution planifiée. | DateTime | 
| reportProgressTime | Heure la plus récente pour laquelle l'activité distante a signalé une progression. | DateTime | 
| @scheduledEndTime | Heure de fin planifiée pour l'objet. | DateTime | 
| @scheduledStartTime | Heure de début planifiée pour l'objet. | DateTime | 
| @État | État de l'objet. | String | 
| @Version | Version du pipeline avec laquelle l'objet été créé. | String | 
| @waitingOn | Description de la liste des dépendances sur laquelle l'objet est en attente. | Objet de référence, par exemple « WaitingOn » : \$1"ref » : » myRunnableObject Id "\$1 | 

 


****  

| Champs système | Description | Type d'option | 
| --- | --- | --- | 
| @error | Erreur décrivant l'objet mal formé. | String | 
| @pipelineId | Id du pipeline auquel l'objet appartient. | String | 
| @sphere | La sphère d'un objet désigne sa place dans le cycle de vie : les objets « composant » entraînent les objets « instance » qui exécutent les objets « tentative » | String | 

# MySqlDataNode
<a name="dp-object-mysqldatanode"></a>

 Définit un nœud de données à l'aide de MySQL. 

**Note**  
Le type `MySqlDataNode` est obsolète. Nous vous recommandons d'utiliser à la place [SqlDataNode](dp-object-sqldatanode.md).

## Exemple
<a name="mysqldatanode-example"></a>

Voici un exemple de ce type d'objet. Cet objet référence deux autres objets que vous pourriez définir dans le même fichier de définition du pipeline. `CopyPeriod` est un objet `Schedule` et `Ready` est un objet de condition préalable.

```
{
  "id" : "Sql Table",
  "type" : "MySqlDataNode",
  "schedule" : { "ref" : "CopyPeriod" },
  "table" : "adEvents",
  "username": "user_name",
  "*password": "my_password",
  "connectionString": "jdbc:mysql://mysqlinstance-rds.example.us-east-1.rds.amazonaws.com:3306/database_name",
  "selectQuery" : "select * from #{table} where eventTime >= '#{@scheduledStartTime.format('YYYY-MM-dd HH:mm:ss')}' and eventTime < '#{@scheduledEndTime.format('YYYY-MM-dd HH:mm:ss')}'",
  "precondition" : { "ref" : "Ready" }
}
```

### Syntaxe
<a name="mysqldatanode-syntax"></a>


****  

| Champs obligatoires | Description | Type d'option | 
| --- | --- | --- | 
| table | Nom de la table dans la base de données MySQL. | String | 

 


****  

| Champs d'invocation de l'objet | Description | Type d'option | 
| --- | --- | --- | 
| schedule | Cet objet est appelé dans le cadre de l'exécution d'un intervalle de planification. Les utilisateurs doivent spécifier une référence de planification à un autre objet pour définir l'ordre d'exécution des dépendances de l'objet. Les utilisateurs peuvent satisfaire à cette exigence en définissant explicitement un calendrier sur l'objet, par exemple en spécifiant « schedule » : \$1"ref » : "DefaultSchedule«\$1. Dans la plupart des cas, il est préférable de placer la planification de référence sur l'objet de pipeline par défaut de manière à ce que tous les objets héritent cette planification. Ou, si le pipeline dispose d'une arborescence de planifications (planifications au sein de la planification maître), les utilisateurs peuvent créer un objet parent ayant une référence de planification. Pour plus d'informations sur les exemples de configurations de planification facultatives, consultez [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html). | Objet de référence, par exemple « schedule » : \$1"ref » : » myScheduleId «\$1 | 

 


****  

| Champs facultatifs | Description | Type d'option | 
| --- | --- | --- | 
| attemptStatus | État de l'activité à distance le plus récemment rapporté. | String | 
| attemptTimeout | Délai d'achèvement de la tâche à distance. Si une valeur est définie, une activité à distance qui n'est pas exécutée dans le cadre de la période de départ définie peut être retentée. | Period | 
| createTableSql | Expression SQL create table qui crée la table. | String | 
| database | Nom de la base de données. | Objet de référence, par exemple « base de données » : \$1"ref » : » myDatabaseId «\$1 | 
| dependsOn | Spécifie la dépendance sur un autre objet exécutable. | Objet de référence, par exemple « DependsOn » : \$1"ref » : » myActivityId «\$1 | 
| failureAndRerunMode | Décrit le comportement du nœud de consommateurs lorsque les dépendances échouent ou sont à nouveau exécutées. | Énumération | 
| insertQuery | Instruction SQL pour insérer des données dans la table. | String | 
| lateAfterTimeout | Temps écoulé après le début du pipeline pendant lequel l'objet doit être terminé. Il est déclenché uniquement lorsque le type de planification n'est pas défini surondemand. | Period | 
| maxActiveInstances | Nombre maximal d'instances actives simultanées d'un composant. Les réexécutions ne sont pas comptabilisées dans le nombre d'instances actives. | Entier | 
| maximumRetries | Nombre maximal de nouvelles tentatives en cas d'échec | Entier | 
| onFail | Action à exécuter en cas d'échec de l'objet actuel. | Objet de référence, par exemple « onFail » : \$1"ref » : » myActionId «\$1 | 
| onLateAction | Actions à déclencher si un objet n'a pas encore été planifié ou n'est toujours pas terminé. | Objet de référence, par exemple "onLateAction« : \$1" ref » : » myActionId «\$1 | 
| onSuccess | Action à exécuter en cas de réussite de l'objet actuel. | Objet de référence, par exemple « onSuccess » : \$1"ref » : » myActionId «\$1 | 
| parent | Parent de l'objet actuel à partir duquel les emplacements sont hérités. | Objet de référence, par exemple « parent » : \$1"ref » : » myBaseObject Id "\$1 | 
| pipelineLogUri | L'URI S3 (tel que 's3 ://BucketName/Key/ ') pour le téléchargement des journaux pour le pipeline. | String | 
| precondition | Définit une condition préalable facultative. Un nœud de données n'est pas marqué « READY » tant que toutes les conditions préalables ne sont pas remplies. | Objet de référence, par exemple « précondition » : \$1"ref » : » myPreconditionId «\$1 | 
| reportProgressTimeout | Délai pour les appels successifs de travail à distance adressés à reportProgress. Si une valeur est définie, les activités à distance qui ne font pas état d'avancement pour la période spécifiée doivent être considérées comme bloquées et, par conséquent, retentées. | Period | 
| retryDelay | Délai entre deux nouvelles tentatives. | Period | 
| runsOn | Ressource de calcul pour exécuter l'activité ou la commande. Par exemple, une instance Amazon EC2 ou un cluster Amazon EMR. | Objet de référence, par exemple « RunSon » : \$1"ref » : » myResourceId «\$1 | 
| scheduleType | Le type de planification vous permet de spécifier si les objets de votre définition de pipeline doivent être planifiés au début ou à la fin de l'intervalle. Dans la planification de type séries chronologiques, les instances sont planifiées à la fin de chaque intervalle et dans la planification de type cron, les instances sont planifiées au début de chaque intervalle. Une planification à la demande vous permet d'exécuter un pipeline une fois par activation. Cela signifie que vous n'avez pas à cloner ou à recréer le pipeline pour l'exécuter à nouveau. Si vous utilisez une planification à la demande, elle doit être spécifiée dans l'objet par défaut et être le seul scheduleType pour les objets du pipeline. Pour utiliser des pipelines à la demande, il suffit d'appeler l' ActivatePipeline opération pour chaque exécution suivante. Les valeurs sont : cron, ondemand et timeseries (cron, à la demande et séries chronologiques). | Énumération | 
| schemaName | Nom du schéma contenant la table. | String | 
| selectQuery | Instruction SQL pour récupérer les données de la table. | String | 
| workerGroup | Groupe de travail. Utilisé pour les tâches d'acheminement. Si vous fournissez une valeur runsOn et que workerGroup existe, workerGroup est ignoré. | String | 

 


****  

| Champs liés à l'exécution | Description | Type d'option | 
| --- | --- | --- | 
| @activeInstances | Liste des objets d'instances actives actuellement planifiés. | Objet de référence, par exemple « ActiveInstances » : \$1"ref » : » myRunnableObject Id "\$1 | 
| @actualEndTime | Heure à laquelle l'exécution de l'objet s'est terminée. | DateTime | 
| @actualStartTime | Heure à laquelle l'exécution de l'objet a démarré. | DateTime | 
| cancellationReason | Motif de l'annulation si l'objet a été annulé. | String | 
| @cascadeFailedOn | Description de la chaîne de dépendances sur laquelle l'objet a échoué. | Objet de référence, par exemple "cascadeFailedOn« : \$1" ref » : » myRunnableObject Id "\$1 | 
| emrStepLog | Journaux d'étapes EMR disponibles uniquement sur les tentatives d'activité EMR | String | 
| errorId | ID de l'erreur si l'objet a échoué. | String | 
| errorMessage | errorMessage si l'objet a échoué. | String | 
| errorStackTrace | Suivi de la pile d'erreurs si l'objet a échoué. | String | 
| @finishedTime | Heure à laquelle l'objet a terminé son exécution. | DateTime | 
| hadoopJobLog | Journaux de travail Hadoop disponibles sur les tentatives pour les activités EMR. | String | 
| @healthStatus | État de santé de l'objet qui reflète la réussite ou l'échec de la dernière instance qui a atteint un état résilié. | String | 
| @healthStatusFromInstanceId | ID du dernier objet d'instance qui atteint un état résilié. | String | 
| @ healthStatusUpdated Heure | Heure à laquelle l'état de santé a été mis à jour pour la dernière fois. | DateTime | 
| hostname | Nom d'hôte du client qui a sélectionné la tentative de tâche. | String | 
| @lastDeactivatedTime | Heure à laquelle l'objet a été désactivé pour la dernière fois. | DateTime | 
| @ latestCompletedRun Heure | Heure de la dernière exécution pour laquelle l'exécution s'est terminée. | DateTime | 
| @latestRunTime | Heure de la dernière exécution pour laquelle l'exécution a été planifiée. | DateTime | 
| @nextRunTime | Prochaine heure d'exécution planifiée. | DateTime | 
| reportProgressTime | Heure la plus récente pour laquelle l'activité distante a signalé une progression. | DateTime | 
| @scheduledEndTime | Heure de fin planifiée pour l'objet. | DateTime | 
| @scheduledStartTime | Heure de début planifiée pour l'objet. | DateTime | 
| @État | État de l'objet. | String | 
| @Version | Version du pipeline avec laquelle l'objet été créé. | String | 
| @waitingOn | Description de la liste des dépendances sur laquelle l'objet est en attente. | Objet de référence, par exemple « WaitingOn » : \$1"ref » : » myRunnableObject Id "\$1 | 

 


****  

| Champs système | Description | Type d'option | 
| --- | --- | --- | 
| @error | Erreur décrivant l'objet mal formé. | String | 
| @pipelineId | Id du pipeline auquel l'objet appartient. | String | 
| @sphere | La sphère d'un objet désigne sa place dans le cycle de vie : les objets « composant » entraînent les objets « instance » qui exécutent les objets « tentative ». | String | 

## Voir aussi
<a name="mysqldatanode-seealso"></a>
+ [S3 DataNode](dp-object-s3datanode.md)

# RedshiftDataNode
<a name="dp-object-redshiftdatanode"></a>

Définit un nœud de données à l'aide d'Amazon Redshift. `RedshiftDataNode`représente les propriétés des données d'une base de données, telle qu'une table de données, utilisée par votre pipeline.

## Exemple
<a name="redshiftdatanode-example"></a>

Voici un exemple de ce type d'objet.

```
{
  "id" : "MyRedshiftDataNode",
  "type" : "RedshiftDataNode",
  "database": { "ref": "MyRedshiftDatabase" },
  "tableName": "adEvents",
  "schedule": { "ref": "Hour" }
}
```

## Syntaxe
<a name="redshiftdatanode-syntax"></a>


****  

| Champs obligatoires | Description | Type d'option | 
| --- | --- | --- | 
| database | Base de données dans laquelle réside la table. | Objet de référence, par exemple « database » : \$1"ref » : » myRedshiftDatabase Id "\$1 | 
| tableName | Nom de la table Amazon Redshift. La table est créée si elle n'existe pas déjà et que vous l'avez fournie createTableSql. | String | 

 


****  

| Champs d'invocation de l'objet | Description | Type d'option | 
| --- | --- | --- | 
| schedule | Cet objet est appelé dans le cadre de l'exécution d'un intervalle de planification. Les utilisateurs doivent spécifier une référence de planification à un autre objet pour définir l'ordre d'exécution des dépendances de l'objet. Les utilisateurs peuvent satisfaire à cette exigence en définissant explicitement un calendrier sur l'objet, par exemple en spécifiant « schedule » : \$1"ref » : "DefaultSchedule«\$1. Dans la plupart des cas, il est préférable de placer la planification de référence sur l'objet de pipeline par défaut de manière à ce que tous les objets héritent cette planification. Ou, si le pipeline dispose d'une arborescence de planifications (planifications au sein de la planification maître), les utilisateurs peuvent créer un objet parent ayant une référence de planification. Pour plus d'informations sur les exemples de configurations de planification facultatives, consultez [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html). | Objet de référence, par exemple « schedule » : \$1"ref » : » myScheduleId «\$1 | 

 


****  

| Champs facultatifs | Description | Type d'option | 
| --- | --- | --- | 
| attemptStatus | État de l'activité à distance le plus récemment rapporté. | String | 
| attemptTimeout | Délai d'achèvement de la tâche à distance. Si une valeur est définie, une activité à distance qui n'est pas exécutée dans le cadre de la période de départ définie peut être retentée. | Period | 
| createTableSql | Expression SQL permettant de créer la table dans la base de données. Nous vous recommandons de spécifier le schéma dans lequel la table doit être créée, par exemple : CREATE TABLE MySchema.MyTable (BestColumn varchar (25) clé primaire distkey, entier sortKey). numberOfWins AWS Data Pipeline exécute le script dans le createTableSql champ si la table, spécifiée par TableName, n'existe pas dans le schéma spécifié par le champ SchemaName. Par exemple, si vous spécifiez SchemaName comme MySchema mais que vous n'incluez pas MySchema dans le createTableSql champ, la table est créée dans le mauvais schéma (par défaut, elle sera créée dans PUBLIC). La raison en est qu'AWS Data Pipeline n'analyse pas vos instructions CREATE TABLE.  | String | 
| dependsOn | Spécifie une dépendance sur un autre objet exécutable. | Objet de référence, par exemple « DependsOn » : \$1"ref » : » myActivityId «\$1 | 
| failureAndRerunMode | Décrit le comportement du nœud de consommateurs lorsque les dépendances échouent ou sont à nouveau exécutées. | Énumération | 
| lateAfterTimeout | Temps écoulé après le début du pipeline pendant lequel l'objet doit être terminé. Il est déclenché uniquement lorsque le type de planification n'est pas défini surondemand. | Period | 
| maxActiveInstances | Nombre maximal d'instances actives simultanées d'un composant. Les réexécutions ne sont pas comptabilisées dans le nombre d'instances actives. | Entier | 
| maximumRetries | Nombre maximal de nouvelles tentatives en cas d'échec. | Entier | 
| onFail | Action à exécuter en cas d'échec de l'objet actuel. | Objet de référence, par exemple « onFail » : \$1"ref » : » myActionId «\$1 | 
| onLateAction | Actions à déclencher si un objet n'a pas encore été planifié ou n'est toujours pas terminé. | Objet de référence, par exemple "onLateAction« : \$1" ref » : » myActionId «\$1 | 
| onSuccess | Action à exécuter en cas de réussite de l'objet actuel. | Objet de référence, par exemple « onSuccess » : \$1"ref » : » myActionId «\$1 | 
| parent | Parent de l'objet actuel à partir duquel les emplacements sont hérités. | Objet de référence, par exemple « parent » : \$1"ref » : » myBaseObject Id "\$1 | 
| pipelineLogUri | L'URI S3 (tel que 's3 ://BucketName/Key/ ') pour le téléchargement des journaux pour le pipeline. | String | 
| precondition | Définit une condition préalable facultative. Un nœud de données n'est pas marqué « READY » tant que toutes les conditions préalables ne sont pas remplies. | Objet de référence, par exemple « précondition » : \$1"ref » : » myPreconditionId «\$1 | 
| primaryKeys | Si vous ne spécifiez aucune valeur primaryKeys pour la table de destination dans RedShiftCopyActivity, vous pouvez définir une liste de colonnes à l'aide de ce champ, qui agit alors en tant que mergeKey. Toutefois, si une clé primaire est définie dans une table Amazon Redshift, ce paramètre remplace la clé existante. | String | 
| reportProgressTimeout | Délai pour les appels successifs de travail à distance adressés à reportProgress. Si une valeur est définie, les activités à distance qui ne font pas état d'avancement pour la période spécifiée doivent être considérées comme bloquées et, par conséquent, retentées. | Period | 
| retryDelay | Délai entre deux nouvelles tentatives. | Period | 
| runsOn | Ressource de calcul pour exécuter l'activité ou la commande. Par exemple, une instance Amazon EC2 ou un cluster Amazon EMR. | Objet de référence, par exemple « RunSon » : \$1"ref » : » myResourceId «\$1 | 
| scheduleType | Le type de planification vous permet de spécifier si les objets de votre définition de pipeline doivent être planifiés au début ou à la fin de l'intervalle. Dans la planification de type séries chronologiques, les instances sont planifiées à la fin de chaque intervalle et dans la planification de type cron, les instances sont planifiées au début de chaque intervalle. Une planification à la demande vous permet d'exécuter un pipeline une fois par activation. Cela signifie que vous n'avez pas à cloner ou à recréer le pipeline pour l'exécuter à nouveau. Si vous utilisez une planification à la demande, elle doit être spécifiée dans l'objet par défaut et être le seul scheduleType pour les objets du pipeline. Pour utiliser des pipelines à la demande, il suffit d'appeler l' ActivatePipeline opération pour chaque exécution suivante. Les valeurs sont : cron, ondemand et timeseries (cron, à la demande et séries chronologiques). | Énumération | 
| schemaName | Ce champ facultatif spécifie le nom du schéma de la table Amazon Redshift. S'il n'est pas spécifié, le nom du schéma est PUBLIC, qui est le schéma par défaut dans Amazon Redshift. Pour plus d'informations, consultez le manuel Amazon Redshift Database Developer Guide.  | String | 
| workerGroup | Groupe de travail. Utilisé pour les tâches d'acheminement. Si vous fournissez une valeur runsOn et que workerGroup existe, workerGroup est ignoré. | String | 

 


****  

| Champs liés à l'exécution | Description | Type d'option | 
| --- | --- | --- | 
| @activeInstances | Liste des objets d'instances actives actuellement planifiés. | Objet de référence, par exemple « ActiveInstances » : \$1"ref » : » myRunnableObject Id "\$1 | 
| @actualEndTime | Heure à laquelle l'exécution de l'objet s'est terminée. | DateTime | 
| @actualStartTime | Heure à laquelle l'exécution de l'objet a démarré. | DateTime | 
| cancellationReason | Motif de l'annulation si l'objet a été annulé. | String | 
| @cascadeFailedOn | Description de la chaîne de dépendances sur laquelle l'objet a échoué. | Objet de référence, par exemple "cascadeFailedOn« : \$1" ref » : » myRunnableObject Id "\$1 | 
| emrStepLog | Journaux d'étapes EMR disponibles uniquement sur les tentatives d'activité EMR | String | 
| errorId | ID de l'erreur si l'objet a échoué. | String | 
| errorMessage | errorMessage si l'objet a échoué. | String | 
| errorStackTrace | Suivi de la pile d'erreurs si l'objet a échoué. | String | 
| @finishedTime | Heure à laquelle l'objet a terminé son exécution. | DateTime | 
| hadoopJobLog | Journaux de travail Hadoop disponibles sur les tentatives pour les activités EMR. | String | 
| @healthStatus | État de santé de l'objet qui reflète la réussite ou l'échec de la dernière instance qui a atteint un état résilié. | String | 
| @healthStatusFromInstanceId | ID du dernier objet d'instance qui atteint un état résilié. | String | 
| @ healthStatusUpdated Heure | Heure à laquelle l'état de santé a été mis à jour pour la dernière fois. | DateTime | 
| hostname | Nom d'hôte du client qui a sélectionné la tentative de tâche. | String | 
| @lastDeactivatedTime | Heure à laquelle l'objet a été désactivé pour la dernière fois. | DateTime | 
| @ latestCompletedRun Heure | Heure de la dernière exécution pour laquelle l'exécution s'est terminée. | DateTime | 
| @latestRunTime | Heure de la dernière exécution pour laquelle l'exécution a été planifiée. | DateTime | 
| @nextRunTime | Prochaine heure d'exécution planifiée. | DateTime | 
| reportProgressTime | Heure la plus récente pour laquelle l'activité distante a signalé une progression. | DateTime | 
| @scheduledEndTime | Heure de fin planifiée pour l'objet. | DateTime | 
| @scheduledStartTime | Heure de début planifiée pour l'objet. | DateTime | 
| @État | État de l'objet. | String | 
| @Version | Version du pipeline avec laquelle l'objet été créé. | String | 
| @waitingOn | Description de la liste des dépendances sur laquelle l'objet est en attente. | Objet de référence, par exemple « WaitingOn » : \$1"ref » : » myRunnableObject Id "\$1 | 

 


****  

| Champs système | Description | Type d'option | 
| --- | --- | --- | 
| @error | Erreur décrivant l'objet mal formé. | String | 
| @pipelineId | Id du pipeline auquel l'objet appartient. | String | 
| @sphere | La sphère d'un objet désigne sa place dans le cycle de vie : les objets « composant » entraînent les objets « instance » qui exécutent les objets « tentative ». | String | 

# S3 DataNode
<a name="dp-object-s3datanode"></a>

 Définit un nœud de données à l'aide d'Amazon S3. Par défaut, le S3 DataNode utilise le chiffrement côté serveur. Si vous souhaitez désactiver cette option, définissez s3 EncryptionType sur NONE. 

**Note**  
Lorsque vous utilisez un `S3DataNode` comme entrée de `CopyActivity`, seuls les formats de données CSV et TSV sont pris en charge.

## Exemple
<a name="s3datanode-example"></a>

Voici un exemple de ce type d'objet. Cet objet référence un autre objet que vous pourriez définir dans le même fichier de définition du pipeline. `CopyPeriod` est un objet `Schedule`.

```
{
  "id" : "OutputData",
  "type" : "S3DataNode",
  "schedule" : { "ref" : "CopyPeriod" },
  "filePath" : "s3://amzn-s3-demo-bucket/#{@scheduledStartTime}.csv"
}
```

## Syntaxe
<a name="s3datanode-syntax"></a>


****  

| Champs d'invocation de l'objet | Description | Type d'option | 
| --- | --- | --- | 
| schedule | Cet objet est appelé dans le cadre de l'exécution d'un intervalle de planification. Les utilisateurs doivent spécifier une référence de planification à un autre objet pour définir l'ordre d'exécution des dépendances de l'objet. Les utilisateurs peuvent satisfaire à cette exigence en définissant explicitement un calendrier sur l'objet, par exemple en spécifiant « schedule » : \$1"ref » : "DefaultSchedule«\$1. Dans la plupart des cas, il est préférable de placer la planification de référence sur l'objet de pipeline par défaut de manière à ce que tous les objets héritent cette planification. Ou, si le pipeline dispose d'une arborescence de planifications (planifications au sein de la planification maître), les utilisateurs peuvent créer un objet parent ayant une référence de planification. Pour plus d'informations sur les exemples de configurations de planification facultatives, consultez [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html). | Objet de référence, par exemple « schedule » : \$1"ref » : » myScheduleId «\$1 | 

 


****  

| Champs facultatifs | Description | Type d'option | 
| --- | --- | --- | 
| attemptStatus | État de l'activité à distance le plus récemment rapporté. | String | 
| attemptTimeout | Délai d'achèvement de la tâche à distance. Si une valeur est définie, une activité à distance qui n'est pas exécutée dans le cadre de la période de départ définie peut être retentée. | Period | 
| compression | Type de compression des données décrit par le S3DataNode. « none » n'est pas une compression et « gzip » est compressé avec l'algorithme gzip. Ce champ n'est pris en charge que pour une utilisation avec Amazon Redshift et lorsque vous utilisez S3 DataNode avec. CopyActivity | Énumération | 
| dataFormat | DataFormat pour les données décrites par ce S3DataNode. | Objet de référence, par exemple « dataFormat » : \$1"ref » : » myDataFormat Id "\$1 | 
| dependsOn | Spécifie une dépendance sur un autre objet exécutable. | Objet de référence, par exemple « DependsOn » : \$1"ref » : » myActivityId «\$1 | 
| directoryPath | Chemin du répertoire Amazon S3 sous forme d'URI : s3://my-bucket/my-key-for-directory. Vous devez fournir une valeur filePath ou directoryPath. | String | 
| failureAndRerunMode | Décrit le comportement du nœud de consommateurs lorsque les dépendances échouent ou sont à nouveau exécutées. | Énumération | 
| filePath | Le chemin d'accès à l'objet dans Amazon S3 sous forme d'URI, par exemple : s3://my-bucket/my-key-for-file. Vous devez fournir une valeur filePath ou directoryPath. Ces valeurs représentent un dossier et un nom de fichier. Utilisez la valeur directoryPath pour accueillir plusieurs fichiers dans un répertoire. | String | 
| lateAfterTimeout | Temps écoulé après le début du pipeline pendant lequel l'objet doit être terminé. Il est déclenché uniquement lorsque le type de planification n'est pas défini surondemand. | Period | 
| manifestFilePath | Le chemin Amazon S3 vers un fichier manifeste au format pris en charge par Amazon Redshift. AWS Data Pipeline utilise le fichier manifeste pour copier les fichiers Amazon S3 spécifiés dans la table. Ce champ n'est valide que lorsqu'un RedShiftCopyActivity fait référence au S3DataNode. | String | 
| maxActiveInstances | Nombre maximal d'instances actives simultanées d'un composant. Les réexécutions ne sont pas comptabilisées dans le nombre d'instances actives. | Entier | 
| maximumRetries | Nombre maximal de nouvelles tentatives en cas d'échec | Entier | 
| onFail | Action à exécuter en cas d'échec de l'objet actuel. | Objet de référence, par exemple « onFail » : \$1"ref » : » myActionId «\$1 | 
| onLateAction | Actions à déclencher si un objet n'a pas encore été planifié ou n'est toujours pas terminé. | Objet de référence, par exemple "onLateAction« : \$1" ref » : » myActionId «\$1 | 
| onSuccess | Action à exécuter en cas de réussite de l'objet actuel. | Objet de référence, par exemple « onSuccess » : \$1"ref » : » myActionId «\$1 | 
| parent | Parent de l'objet actuel à partir duquel les emplacements sont hérités. | Objet de référence, par exemple « parent » : \$1"ref » : » myBaseObject Id "\$1 | 
| pipelineLogUri | L'URI S3 (tel que 's3 ://BucketName/Key/ ') pour le téléchargement des journaux pour le pipeline. | String | 
| precondition | Définit une condition préalable facultative. Un nœud de données n'est pas marqué « READY » tant que toutes les conditions préalables ne sont pas remplies. | Objet de référence, par exemple « précondition » : \$1"ref » : » myPreconditionId «\$1 | 
| reportProgressTimeout | Délai pour les appels successifs de travail à distance adressés à reportProgress. Si une valeur est définie, les activités à distance qui ne font pas état d'avancement pour la période spécifiée doivent être considérées comme bloquées et, par conséquent, retentées. | Period | 
| retryDelay | Délai entre deux nouvelles tentatives. | Period | 
| runsOn | Ressource de calcul pour exécuter l'activité ou la commande. Par exemple, une instance Amazon EC2 ou un cluster Amazon EMR. | Objet de référence, par exemple « RunSon » : \$1"ref » : » myResourceId «\$1 | 
| s3 EncryptionType | Remplace le type de chiffrement Amazon S3. Les valeurs possibles sont SERVER\$1SIDE\$1ENCRYPTION ou NONE. Le chiffrement côté serveur est activé par défaut.  | Énumération | 
| scheduleType | Le type de planification vous permet de spécifier si les objets de votre définition de pipeline doivent être planifiés au début ou à la fin de l'intervalle. Dans la planification de type séries chronologiques, les instances sont planifiées à la fin de chaque intervalle et dans la planification de type cron, les instances sont planifiées au début de chaque intervalle. Une planification à la demande vous permet d'exécuter un pipeline une fois par activation. Cela signifie que vous n'avez pas à cloner ou à recréer le pipeline pour l'exécuter à nouveau. Si vous utilisez une planification à la demande, elle doit être spécifiée dans l'objet par défaut et être le seul scheduleType pour les objets du pipeline. Pour utiliser des pipelines à la demande, il suffit d'appeler l' ActivatePipeline opération pour chaque exécution suivante. Les valeurs sont : cron, ondemand et timeseries (cron, à la demande et séries chronologiques). | Énumération | 
| workerGroup | Groupe de travail. Utilisé pour les tâches d'acheminement. Si vous fournissez une valeur runsOn et que workerGroup existe, workerGroup est ignoré. | String | 

 


****  

| Champs liés à l'exécution | Description | Type d'option | 
| --- | --- | --- | 
| @activeInstances | Liste des objets d'instances actives actuellement planifiés. | Objet de référence, par exemple « ActiveInstances » : \$1"ref » : » myRunnableObject Id "\$1 | 
| @actualEndTime | Heure à laquelle l'exécution de l'objet s'est terminée. | DateTime | 
| @actualStartTime | Heure à laquelle l'exécution de l'objet a démarré. | DateTime | 
| cancellationReason | Motif de l'annulation si l'objet a été annulé. | String | 
| @cascadeFailedOn | Description de la chaîne de dépendances sur laquelle l'objet a échoué. | Objet de référence, par exemple "cascadeFailedOn« : \$1" ref » : » myRunnableObject Id "\$1 | 
| emrStepLog | Journaux d'étapes EMR disponibles uniquement sur les tentatives d'activité EMR | String | 
| errorId | ID de l'erreur si l'objet a échoué. | String | 
| errorMessage | errorMessage si l'objet a échoué. | String | 
| errorStackTrace | Suivi de la pile d'erreurs si l'objet a échoué. | String | 
| @finishedTime | Heure à laquelle l'objet a terminé son exécution. | DateTime | 
| hadoopJobLog | Journaux de travail Hadoop disponibles sur les tentatives pour les activités EMR. | String | 
| @healthStatus | État de santé de l'objet qui reflète la réussite ou l'échec de la dernière instance qui a atteint un état résilié. | String | 
| @healthStatusFromInstanceId | ID du dernier objet d'instance qui atteint un état résilié. | String | 
| @ healthStatusUpdated Heure | Heure à laquelle l'état de santé a été mis à jour pour la dernière fois. | DateTime | 
| hostname | Nom d'hôte du client qui a sélectionné la tentative de tâche. | String | 
| @lastDeactivatedTime | Heure à laquelle l'objet a été désactivé pour la dernière fois. | DateTime | 
| @ latestCompletedRun Heure | Heure de la dernière exécution pour laquelle l'exécution s'est terminée. | DateTime | 
| @latestRunTime | Heure de la dernière exécution pour laquelle l'exécution a été planifiée. | DateTime | 
| @nextRunTime | Prochaine heure d'exécution planifiée. | DateTime | 
| reportProgressTime | Heure la plus récente pour laquelle l'activité distante a signalé une progression. | DateTime | 
| @scheduledEndTime | Heure de fin planifiée pour l'objet. | DateTime | 
| @scheduledStartTime | Heure de début planifiée pour l'objet. | DateTime | 
| @État | État de l'objet. | String | 
| @Version | Version du pipeline avec laquelle l'objet été créé. | String | 
| @waitingOn | Description de la liste des dépendances sur laquelle l'objet est en attente. | Objet de référence, par exemple « WaitingOn » : \$1"ref » : » myRunnableObject Id "\$1 | 

 


****  

| Champs système | Description | Type d'option | 
| --- | --- | --- | 
| @error | Erreur décrivant l'objet mal formé. | String | 
| @pipelineId | Id du pipeline auquel l'objet appartient. | String | 
| @sphere | La sphère d'un objet désigne sa place dans le cycle de vie : les objets « composant » entraînent les objets « instance » qui exécutent les objets « tentative » | String | 

## Voir aussi
<a name="s3datanode-seealso"></a>
+ [MySqlDataNode](dp-object-mysqldatanode.md)

# SqlDataNode
<a name="dp-object-sqldatanode"></a>

 Définit un nœud de données à l'aide de SQL. 

## Exemple
<a name="example-sql-data-node"></a>

Voici un exemple de ce type d'objet. Cet objet référence deux autres objets que vous pourriez définir dans le même fichier de définition du pipeline. `CopyPeriod` est un objet `Schedule` et `Ready` est un objet de condition préalable.

```
{
  "id" : "Sql Table",
  "type" : "SqlDataNode",
  "schedule" : { "ref" : "CopyPeriod" },
  "table" : "adEvents",
  "database":"myDataBaseName",
  "selectQuery" : "select * from #{table} where eventTime >= '#{@scheduledStartTime.format('YYYY-MM-dd HH:mm:ss')}' and eventTime < '#{@scheduledEndTime.format('YYYY-MM-dd HH:mm:ss')}'",
  "precondition" : { "ref" : "Ready" }
}
```

## Syntaxe
<a name="sql-data-node-slots"></a>


****  

| Champs obligatoires | Description | Type d'option | 
| --- | --- | --- | 
| table | Nom de la table dans la base de données SQL. | String | 

 


****  

| Champs d'invocation de l'objet | Description | Type d'option | 
| --- | --- | --- | 
| schedule | Cet objet est appelé dans le cadre de l'exécution d'un intervalle de planification. Les utilisateurs doivent spécifier une référence de planification à un autre objet pour définir l'ordre d'exécution des dépendances de l'objet. Les utilisateurs peuvent satisfaire à cette exigence en définissant explicitement un calendrier sur l'objet, par exemple en spécifiant « schedule » : \$1"ref » : "DefaultSchedule«\$1. Dans la plupart des cas, il est préférable de placer la planification de référence sur l'objet de pipeline par défaut de manière à ce que tous les objets héritent cette planification. Ou, si le pipeline dispose d'une arborescence de planifications (planifications au sein de la planification maître), les utilisateurs peuvent créer un objet parent ayant une référence de planification. Pour plus d'informations sur les exemples de configurations de planification facultatives, consultez [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html). | Objet de référence, par exemple « schedule » : \$1"ref » : » myScheduleId «\$1 | 

 


****  

| Champs facultatifs | Description | Type d'option | 
| --- | --- | --- | 
| attemptStatus | État de l'activité à distance le plus récemment rapporté. | String | 
| attemptTimeout | Délai d'achèvement de la tâche à distance. Si une valeur est définie, une activité à distance qui n'est pas exécutée dans le cadre de la période de départ définie peut être retentée. | Period | 
| createTableSql | Expression SQL create table qui crée la table. | String | 
| database | Nom de la base de données. | Objet de référence, par exemple « base de données » : \$1"ref » : » myDatabaseId «\$1 | 
| dependsOn | Spécifie la dépendance sur un autre objet exécutable. | Objet de référence, par exemple « DependsOn » : \$1"ref » : » myActivityId «\$1 | 
| failureAndRerunMode | Décrit le comportement du nœud de consommateurs lorsque les dépendances échouent ou sont à nouveau exécutées. | Énumération | 
| insertQuery | Instruction SQL pour insérer des données dans la table. | String | 
| lateAfterTimeout | Temps écoulé après le début du pipeline pendant lequel l'objet doit être terminé. Il est déclenché uniquement lorsque le type de planification n'est pas défini surondemand. | Period | 
| maxActiveInstances | Nombre maximal d'instances actives simultanées d'un composant. Les réexécutions ne sont pas comptabilisées dans le nombre d'instances actives. | Entier | 
| maximumRetries | Nombre maximal de nouvelles tentatives en cas d'échec | Entier | 
| onFail | Action à exécuter en cas d'échec de l'objet actuel. | Objet de référence, par exemple « onFail » : \$1"ref » : » myActionId «\$1 | 
| onLateAction | Actions à déclencher si un objet n'a pas encore été planifié ou n'est toujours pas terminé. | Objet de référence, par exemple "onLateAction« : \$1" ref » : » myActionId «\$1 | 
| onSuccess | Action à exécuter en cas de réussite de l'objet actuel. | Objet de référence, par exemple « onSuccess » : \$1"ref » : » myActionId «\$1 | 
| parent | Parent de l'objet actuel à partir duquel les emplacements sont hérités. | Objet de référence, par exemple « parent » : \$1"ref » : » myBaseObject Id "\$1 | 
| pipelineLogUri | L'URI S3 (tel que 's3 ://BucketName/Key/ ') pour le téléchargement des journaux pour le pipeline. | String | 
| precondition | Définit une condition préalable facultative. Un nœud de données n'est pas marqué « READY » tant que toutes les conditions préalables ne sont pas remplies. | Objet de référence, par exemple « précondition » : \$1"ref » : » myPreconditionId «\$1 | 
| reportProgressTimeout | Délai pour les appels successifs de travail à distance adressés à reportProgress. Si une valeur est définie, les activités à distance qui ne font pas état d'avancement pour la période spécifiée doivent être considérées comme bloquées et, par conséquent, retentées. | Period | 
| retryDelay | Délai entre deux nouvelles tentatives. | Period | 
| runsOn | Ressource de calcul pour exécuter l'activité ou la commande. Par exemple, une instance Amazon EC2 ou un cluster Amazon EMR. | Objet de référence, par exemple « RunSon » : \$1"ref » : » myResourceId «\$1 | 
| scheduleType | Le type de planification vous permet de spécifier si les objets de votre définition de pipeline doivent être planifiés au début ou à la fin de l'intervalle. Dans la planification de type séries chronologiques, les instances sont planifiées à la fin de chaque intervalle et dans la planification de type cron, les instances sont planifiées au début de chaque intervalle. Une planification à la demande vous permet d'exécuter un pipeline une fois par activation. Cela signifie que vous n'avez pas à cloner ou à recréer le pipeline pour l'exécuter à nouveau. Si vous utilisez une planification à la demande, elle doit être spécifiée dans l'objet par défaut et être le seul scheduleType pour les objets du pipeline. Pour utiliser des pipelines à la demande, il suffit d'appeler l' ActivatePipeline opération pour chaque exécution suivante. Les valeurs sont : cron, ondemand et timeseries (cron, à la demande et séries chronologiques). | Énumération | 
| schemaName | Nom du schéma contenant la table. | String | 
| selectQuery | Instruction SQL pour récupérer les données de la table. | String | 
| workerGroup | Groupe de travail. Utilisé pour les tâches d'acheminement. Si vous fournissez une valeur runsOn et que workerGroup existe, workerGroup est ignoré. | String | 

 


****  

| Champs liés à l'exécution | Description | Type d'option | 
| --- | --- | --- | 
| @activeInstances | Liste des objets d'instances actives actuellement planifiés. | Objet de référence, par exemple « ActiveInstances » : \$1"ref » : » myRunnableObject Id "\$1 | 
| @actualEndTime | Heure à laquelle l'exécution de l'objet s'est terminée. | DateTime | 
| @actualStartTime | Heure à laquelle l'exécution de l'objet a démarré. | DateTime | 
| cancellationReason | Motif de l'annulation si l'objet a été annulé. | String | 
| @cascadeFailedOn | Description de la chaîne de dépendances sur laquelle l'objet a échoué. | Objet de référence, par exemple "cascadeFailedOn« : \$1" ref » : » myRunnableObject Id "\$1 | 
| emrStepLog | Journaux d'étapes EMR disponibles uniquement sur les tentatives d'activité EMR | String | 
| errorId | ID de l'erreur si l'objet a échoué. | String | 
| errorMessage | errorMessage si l'objet a échoué. | String | 
| errorStackTrace | Suivi de la pile d'erreurs si l'objet a échoué. | String | 
| @finishedTime | Heure à laquelle l'objet a terminé son exécution. | DateTime | 
| hadoopJobLog | Journaux de travail Hadoop disponibles sur les tentatives pour les activités EMR. | String | 
| @healthStatus | État de santé de l'objet qui reflète la réussite ou l'échec de la dernière instance qui a atteint un état résilié. | String | 
| @healthStatusFromInstanceId | ID du dernier objet d'instance qui atteint un état résilié. | String | 
| @ healthStatusUpdated Heure | Heure à laquelle l'état de santé a été mis à jour pour la dernière fois. | DateTime | 
| hostname | Nom d'hôte du client qui a sélectionné la tentative de tâche. | String | 
| @lastDeactivatedTime | Heure à laquelle l'objet a été désactivé pour la dernière fois. | DateTime | 
| @ latestCompletedRun Heure | Heure de la dernière exécution pour laquelle l'exécution s'est terminée. | DateTime | 
| @latestRunTime | Heure de la dernière exécution pour laquelle l'exécution a été planifiée. | DateTime | 
| @nextRunTime | Prochaine heure d'exécution planifiée. | DateTime | 
| reportProgressTime | Heure la plus récente pour laquelle l'activité distante a signalé une progression. | DateTime | 
| @scheduledEndTime | Heure de fin planifiée pour l'objet. | DateTime | 
| @scheduledStartTime | Heure de début planifiée pour l'objet. | DateTime | 
| @État | État de l'objet. | String | 
| @Version | Version du pipeline avec laquelle l'objet été créé. | String | 
| @waitingOn | Description de la liste des dépendances sur laquelle l'objet est en attente. | Objet de référence, par exemple « WaitingOn » : \$1"ref » : » myRunnableObject Id "\$1 | 

 


****  

| Champs système | Description | Type d'option | 
| --- | --- | --- | 
| @error | Erreur décrivant l'objet mal formé. | String | 
| @pipelineId | Id du pipeline auquel l'objet appartient. | String | 
| @sphere | La sphère d'un objet désigne sa place dans le cycle de vie : les objets « composant » entraînent les objets « instance » qui exécutent les objets « tentative » | String | 

## Voir aussi
<a name="sql-data-node-see-also"></a>
+ [S3 DataNode](dp-object-s3datanode.md)

# Activités
<a name="dp-object-activities"></a>

Les objets de l' AWS Data Pipeline activité sont les suivants :

**Topics**
+ [CopyActivity](dp-object-copyactivity.md)
+ [EmrActivity](dp-object-emractivity.md)
+ [HadoopActivity](dp-object-hadoopactivity.md)
+ [HiveActivity](dp-object-hiveactivity.md)
+ [HiveCopyActivity](dp-object-hivecopyactivity.md)
+ [PigActivity](dp-object-pigactivity.md)
+ [RedshiftCopyActivity](dp-object-redshiftcopyactivity.md)
+ [ShellCommandActivity](dp-object-shellcommandactivity.md)
+ [SqlActivity](dp-object-sqlactivity.md)

# CopyActivity
<a name="dp-object-copyactivity"></a>

Copie les données d'un emplacement à un autre. `CopyActivity`prend en charge [S3 DataNode](dp-object-s3datanode.md) et [SqlDataNode](dp-object-sqldatanode.md) en entrée et en sortie et l'opération de copie est normalement effectuée record-by-record. `CopyActivity`Fournit toutefois une copie haute performance d'Amazon S3 vers Amazon S3 lorsque toutes les conditions suivantes sont remplies :
+ L'entrée et la sortie sont S3 DataNodes
+ Le champ `dataFormat` est le même pour l'entrée et pour la sortie.

Si vous fournissez des fichiers de données compressés en tant qu'entrées et ne l'indiquez pas à l'aide du champ `compression` des nœuds de données S3, `CopyActivity` risque d'échouer. Dans ce cas, `CopyActivity` ne détecte pas correctement la fin du caractère d'enregistrement et l'opération échoue. En outre, `CopyActivity` prend en charge la copie d'un répertoire vers un autre répertoire et la copie d'un fichier dans un répertoire, mais la record-by-record copie se produit lors de la copie d'un répertoire dans un fichier. Enfin, `CopyActivity` ne prend pas en charge la copie de fichiers Amazon S3 en plusieurs parties. 

`CopyActivity` présente des limites spécifiques à sa prise en charge CSV. Lorsque vous utilisez un S3 DataNode comme entrée pour`CopyActivity`, vous ne pouvez utiliser qu'une Unix/Linux variante du format de fichier de données CSV pour les champs d'entrée et de sortie d'Amazon S3. La Unix/Linux variante nécessite les éléments suivants : 
+ Le séparateur doit être la virgule (« , »).
+ Les enregistrements ne sont pas entre guillemets.
+ Le caractère d'échappement par défaut est la valeur ASCII 92 (barre oblique inverse).
+ La fin de l'identifiant d'enregistrement est la valeur ASCII 10 (ou « \$1n »).

Les systèmes Windows utilisent généralement une séquence de end-of-record caractères différente : retour en chariot et alimentation en ligne en même temps (valeur ASCII 13 et valeur ASCII 10). Vous devez gérer cette différence à l'aide d'un mécanisme supplémentaire, tel qu'un script de pré-copie de script permettant de modifier les données d'entrée, afin de vous assurer que `CopyActivity` puisse correctement détecter la fin d'un enregistrement ; dans le cas contraire, `CopyActivity` échoue de manière répétée.

Lorsque vous utilisez `CopyActivity` pour exporter à partir d'un objet PostgreSQL RDS vers un format de données TSV, le caractère NULL par défaut est \$1n.

## Exemple
<a name="copyactivity-example"></a>

Voici un exemple de ce type d'objet. Cet objet référence trois autres objets que vous pourriez définir dans le même fichier de définition du pipeline. `CopyPeriod` est un objet `Schedule`. `InputData` et `OutputData` sont des objets de nœud de données.

```
{
  "id" : "S3ToS3Copy",
  "type" : "CopyActivity",
  "schedule" : { "ref" : "CopyPeriod" },
  "input" : { "ref" : "InputData" },
  "output" : { "ref" : "OutputData" },
  "runsOn" : { "ref" : "MyEc2Resource" }
}
```

## Syntaxe
<a name="copyactivity-syntax"></a>


****  

| Champs d'invocation de l'objet | Description | Type d'option | 
| --- | --- | --- | 
| schedule | Cet objet est appelé dans le cadre de l'exécution d'un intervalle de planification. Les utilisateurs doivent spécifier une référence de planification à un autre objet pour définir l'ordre d'exécution des dépendances de l'objet. Les utilisateurs peuvent satisfaire à cette exigence en définissant explicitement un calendrier sur l'objet, par exemple en spécifiant « schedule » : \$1"ref » : "DefaultSchedule«\$1. Dans la plupart des cas, il est préférable de placer la planification de référence sur l'objet de pipeline par défaut de manière à ce que tous les objets héritent cette planification. Ou, si le pipeline dispose d'une arborescence de planifications (planifications au sein de la planification maître), les utilisateurs peuvent créer un objet parent ayant une référence de planification. Pour plus d'informations sur les exemples de configurations de planification facultatives, consultez [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html). | Objet de référence, par exemple « schedule » : \$1"ref » : » myScheduleId «\$1 | 


****  

| Groupe obligatoire (l'un des groupes suivants est obligatoire) | Description | Type d'option | 
| --- | --- | --- | 
| runsOn | Ressource de calcul pour exécuter l'activité ou la commande. Par exemple, une instance Amazon EC2 ou un cluster Amazon EMR. | Objet de référence, par exemple « RunSon » : \$1"ref » : » myResourceId «\$1 | 
| workerGroup | Groupe de travail. Utilisé pour les tâches d'acheminement. Si vous fournissez une valeur runsOn et que workerGroup existe, workerGroup est ignoré. | String | 

 


****  

| Champs facultatifs | Description | Type d'option | 
| --- | --- | --- | 
| attemptStatus | État de l'activité à distance le plus récemment rapporté. | String | 
| attemptTimeout | Délai d'achèvement de la tâche à distance. Si une valeur est définie, une activité à distance qui n'est pas exécutée dans le cadre de la période de départ définie peut être retentée. | Period | 
| dependsOn | Spécifie une dépendance sur un autre objet exécutable. | Objet de référence, par exemple « DependsOn » : \$1"ref » : » myActivityId «\$1 | 
| failureAndRerunMode | Décrit le comportement du nœud de consommateurs lorsque les dépendances échouent ou sont à nouveau exécutées. | Énumération | 
| input | Source de données d'entrée. | Objet de référence, par exemple « input » : \$1"ref » : » myDataNode Id "\$1 | 
| lateAfterTimeout | Temps écoulé après le début du pipeline pendant lequel l'objet doit être terminé. Il est déclenché uniquement lorsque le type de planification n'est pas défini surondemand. | Period | 
| maxActiveInstances | Nombre maximal d'instances actives simultanées d'un composant. Les réexécutions ne sont pas comptabilisées dans le nombre d'instances actives. | Entier | 
| maximumRetries | Nombre maximal de nouvelles tentatives en cas d'échec | Entier | 
| onFail | Action à exécuter en cas d'échec de l'objet actuel. | Objet de référence, par exemple « onFail » : \$1"ref » : » myActionId «\$1 | 
| onLateAction | Actions à déclencher si un objet n'a pas encore été planifié ou n'est toujours pas terminé. | Objet de référence, par exemple "onLateAction« : \$1" ref » : » myActionId «\$1 | 
| onSuccess | Action à exécuter en cas de réussite de l'objet actuel. | Objet de référence, par exemple « onSuccess » : \$1"ref » : » myActionId «\$1 | 
| output | Source de données de sortie. | Objet de référence, par exemple « output » : \$1"ref » : » myDataNode Id "\$1 | 
| parent | Parent de l'objet actuel à partir duquel les emplacements sont hérités. | Objet de référence, par exemple « parent » : \$1"ref » : » myBaseObject Id "\$1 | 
| pipelineLogUri | L'URI S3 (tel que 's3 ://BucketName/Key/ ') pour le téléchargement des journaux pour le pipeline. | String | 
| precondition | Définit une condition préalable facultative. Un nœud de données n'est pas marqué « READY » tant que toutes les conditions préalables ne sont pas remplies. | Objet de référence, par exemple « précondition » : \$1"ref » : » myPreconditionId «\$1 | 
| reportProgressTimeout | Délai pour les appels successifs de travail à distance adressés à reportProgress. Si une valeur est définie, les activités à distance qui ne font pas état d'avancement pour la période spécifiée doivent être considérées comme bloquées et, par conséquent, retentées. | Period | 
| retryDelay | Délai entre deux nouvelles tentatives. | Period | 
| scheduleType | Le type de planification vous permet de spécifier si les objets de votre définition de pipeline doivent être planifiés au début ou à la fin de l'intervalle. Dans la planification de type séries chronologiques, les instances sont planifiées à la fin de chaque intervalle et dans la planification de type cron, les instances sont planifiées au début de chaque intervalle. Une planification à la demande vous permet d'exécuter un pipeline une fois par activation. Cela signifie que vous n'avez pas à cloner ou à recréer le pipeline pour l'exécuter à nouveau. Si vous utilisez une planification à la demande, elle doit être spécifiée dans l'objet par défaut et être le seul scheduleType pour les objets du pipeline. Pour utiliser des pipelines à la demande, il suffit d'appeler l' ActivatePipeline opération pour chaque exécution suivante. Les valeurs sont : cron, ondemand et timeseries (cron, à la demande et séries chronologiques). | Énumération | 

 


****  

| Champs liés à l'exécution | Description | Type d'option | 
| --- | --- | --- | 
| @activeInstances | Liste des objets d'instances actives actuellement planifiés. | Objet de référence, par exemple « ActiveInstances » : \$1"ref » : » myRunnableObject Id "\$1 | 
| @actualEndTime | Heure à laquelle l'exécution de l'objet s'est terminée. | DateTime | 
| @actualStartTime | Heure à laquelle l'exécution de l'objet a démarré. | DateTime | 
| cancellationReason | Motif de l'annulation si l'objet a été annulé. | String | 
| @cascadeFailedOn | Description de la chaîne de dépendances sur laquelle l'objet a échoué. | Objet de référence, par exemple "cascadeFailedOn« : \$1" ref » : » myRunnableObject Id "\$1 | 
| emrStepLog | Journaux d'étapes EMR disponibles uniquement sur les tentatives d'activité EMR | String | 
| errorId | ID de l'erreur si l'objet a échoué. | String | 
| errorMessage | errorMessage si l'objet a échoué. | String | 
| errorStackTrace | Suivi de la pile d'erreurs si l'objet a échoué. | String | 
| @finishedTime | Heure à laquelle l'objet a terminé son exécution. | DateTime | 
| hadoopJobLog | Journaux de travail Hadoop disponibles sur les tentatives pour les activités EMR. | String | 
| @healthStatus | État de santé de l'objet qui reflète la réussite ou l'échec de la dernière instance qui a atteint un état résilié. | String | 
| @healthStatusFromInstanceId | ID du dernier objet d'instance qui atteint un état résilié. | String | 
| @ healthStatusUpdated Heure | Heure à laquelle l'état de santé a été mis à jour pour la dernière fois. | DateTime | 
| hostname | Nom d'hôte du client qui a sélectionné la tentative de tâche. | String | 
| @lastDeactivatedTime | Heure à laquelle l'objet a été désactivé pour la dernière fois. | DateTime | 
| @ latestCompletedRun Heure | Heure de la dernière exécution pour laquelle l'exécution s'est terminée. | DateTime | 
| @latestRunTime | Heure de la dernière exécution pour laquelle l'exécution a été planifiée. | DateTime | 
| @nextRunTime | Prochaine heure d'exécution planifiée. | DateTime | 
| reportProgressTime | Heure la plus récente pour laquelle l'activité distante a signalé une progression. | DateTime | 
| @scheduledEndTime | Heure de fin planifiée pour l'objet. | DateTime | 
| @scheduledStartTime | Heure de début planifiée pour l'objet. | DateTime | 
| @État | État de l'objet. | String | 
| @Version | Version du pipeline avec laquelle l'objet été créé. | String | 
| @waitingOn | Description de la liste des dépendances sur laquelle l'objet est en attente. | Objet de référence, par exemple « WaitingOn » : \$1"ref » : » myRunnableObject Id "\$1 | 

 


****  

| Champs système | Description | Type d'option | 
| --- | --- | --- | 
| @error | Erreur décrivant l'objet mal formé. | String | 
| @pipelineId | Id du pipeline auquel l'objet appartient. | String | 
| @sphere | La sphère d'un objet désigne sa place dans le cycle de vie : les objets « composant » entraînent les objets « instance » qui exécutent les objets « tentative » | String | 

## Voir aussi
<a name="copyactivity-seealso"></a>
+ [ShellCommandActivity](dp-object-shellcommandactivity.md)
+ [EmrActivity](dp-object-emractivity.md)
+ [Exportez des données MySQL vers Amazon S3 à l'aide de AWS Data Pipeline](dp-copydata-mysql.md)

# EmrActivity
<a name="dp-object-emractivity"></a>

 Exécute un cluster EMR. 

AWS Data Pipeline utilise un format d'étape différent de celui d'Amazon EMR ; par exemple, AWS Data Pipeline utilise des arguments séparés par des virgules après le nom du fichier JAR dans le champ de l'étape. `EmrActivity` L'exemple suivant montre une étape formatée pour Amazon EMR, suivie AWS Data Pipeline de son équivalent :

```
s3://amzn-s3-demo-bucket/MyWork.jar arg1 arg2 arg3
```

```
"s3://amzn-s3-demo-bucket/MyWork.jar,arg1,arg2,arg3"
```

## Exemples
<a name="emractivity-example"></a>

Voici un exemple de ce type d'objet. Cet exemple utilise d'anciennes versions d'Amazon EMR. Vérifiez l'exactitude de cet exemple avec la version du cluster Amazon EMR que vous utilisez. 

Cet objet référence trois autres objets que vous pourriez définir dans le même fichier de définition du pipeline. `MyEmrCluster` est un objet `EmrCluster`. `MyS3Input` et `MyS3Output` sont des objets `S3DataNode`. 

**Note**  
Dans cet exemple, vous pouvez remplacer le champ `step` par votre chaîne de clusters souhaitée, qui peut être, entre autres, un script Pig, un cluster Hadoop Streaming ou votre propre fichier JAR personnalisé avec ses paramètres.

Hadoop 2.x (AMI 3.x)

```
{
  "id" : "MyEmrActivity",
  "type" : "EmrActivity",
  "runsOn" : { "ref" : "MyEmrCluster" },
  "preStepCommand" : "scp remoteFiles localFiles",
  "step" : ["s3://amzn-s3-demo-bucket/myPath/myStep.jar,firstArg,secondArg,-files,s3://amzn-s3-demo-bucket/myPath/myFile.py,-input,s3://myinputbucket/path,-output,s3://myoutputbucket/path,-mapper,myFile.py,-reducer,reducerName","s3://amzn-s3-demo-bucket/myPath/myotherStep.jar,..."],
  "postStepCommand" : "scp localFiles remoteFiles",
  "input" : { "ref" : "MyS3Input" },
  "output" : { "ref" : "MyS3Output" }
}
```

**Note**  
Pour transmettre des arguments à une application dans une étape, vous devez spécifier la région dans le chemin du script, comme indiqué dans l'exemple suivant. Il est également possible que vous deviez faire précéder les arguments que vous transmettez d'une séquence d'échappement. Par exemple, si vous utilisez `script-runner.jar` pour exécuter un script shell et que vous souhaitez transmettre des arguments au script, vous devez faire précéder les virgules qui les séparent d'une séquence d'échappement. L'extrait d'étape suivant montre comment procéder :   

```
"step" : "s3://eu-west-1.elasticmapreduce/libs/script-runner/script-runner.jar,s3://datapipeline/echo.sh,a\\\\,b\\\\,c"
```
Cette étape utilise `script-runner.jar` pour exécuter le script shell `echo.sh` et transmet `a`, `b` et `c` comme un seul argument au script. Comme le premier caractère d'échappement est supprimé de l'argument obtenu, il se peut que vous ayez à nouveau besoin de le faire précéder d'une séquence d'échappement. Par exemple, si vous avez `File\.gz` comme argument dans JSON, vous pouvez le faire précéder d'une séquence d'échappement avec `File\\\\.gz`. Cependant, comme la première séquence d'échappement est ignorée, vous devez utiliser `File\\\\\\\\.gz `.

## Syntaxe
<a name="emractivity-syntax"></a>


****  

| Champs d'invocation de l'objet | Description | Type d'option | 
| --- | --- | --- | 
| schedule | Cet objet est appelé dans le cadre de l'exécution d'un intervalle de planification. Spécifiez une référence de planification à un autre objet pour définir l'ordre d'exécution des dépendances de l'objet. Vous pouvez répondre à cette exigence en définissant explicitement une planification sur l'objet, par exemple, en spécifiant "schedule": \$1"ref": "DefaultSchedule"\$1. Dans la plupart des cas, il est préférable de placer la planification de référence sur l'objet de pipeline par défaut de manière à ce que tous les objets héritent cette planification. Ou, si le pipeline dispose d'une arborescence de planifications (planifications au sein de la planification maître), vous pouvez créer un objet parent ayant une référence de planification. Pour plus d'informations sur les exemples de configurations de planification facultatives, consultez [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html). | Objet de référence, par exemple, « schedule » : \$1"ref » : » myScheduleId «\$1 | 

 


****  

| Groupe obligatoire (l'un des groupes suivants est obligatoire) | Description | Type d'option | 
| --- | --- | --- | 
| runsOn | Le cluster Amazon EMR sur lequel cette tâche sera exécutée. | Objet de référence, par exemple, « RunSon » : \$1"ref » : » myEmrCluster Id "\$1 | 
| workerGroup | Groupe de travail. Utilisé pour les tâches d'acheminement. Si vous fournissez une valeur runsOn et que workerGroup existe, workerGroup est ignoré. | String | 

 


****  

| Champs facultatifs | Description | Type d'option | 
| --- | --- | --- | 
| attemptStatus | État de l'activité à distance le plus récemment rapporté. | String | 
| attemptTimeout | Délai d'achèvement de la tâche à distance. Si une valeur est définie, une activité à distance qui n'est pas exécutée dans le cadre de la période de départ définie peut être retentée. | Period | 
| dependsOn | Spécifie une dépendance sur un autre objet exécutable. | Objet de référence, par exemple, « DependsOn » : \$1"ref » : » myActivityId «\$1 | 
| failureAndRerunMode | Décrit le comportement du nœud de consommateurs lorsque les dépendances échouent ou sont à nouveau exécutées. | Énumération | 
| input | Emplacement des données d'entrée. | Objet de référence, par exemple, « input » : \$1"ref » : » myDataNode Id "\$1 | 
| lateAfterTimeout | Temps écoulé après le début du pipeline pendant lequel l'objet doit être terminé. Il est déclenché uniquement lorsque le type de planification n'est pas défini surondemand. | Period | 
| maxActiveInstances | Nombre maximal d'instances actives simultanées d'un composant. Les réexécutions ne sont pas comptabilisées dans le nombre d'instances actives. | Entier | 
| maximumRetries | Nombre maximal de nouvelles tentatives en cas d'échec. | Entier | 
| onFail | Action à exécuter en cas d'échec de l'objet actuel. | Objet de référence, par exemple, « onFail » : \$1"ref » : » myActionId «\$1 | 
| onLateAction | Actions à déclencher si un objet n'a pas encore été planifié ou n'est toujours pas terminé. | Objet de référence, par exemple, "onLateAction« : \$1" ref » : » myActionId «\$1 | 
| onSuccess | Action à exécuter en cas de réussite de l'objet actuel. | Objet de référence, par exemple, « onSuccess » : \$1"ref » : » myActionId «\$1 | 
| output | Emplacement des données de sortie. | Objet de référence, par exemple, « output » : \$1"ref » : » myDataNode Id "\$1 | 
| parent | Parent de l'objet actuel à partir duquel les emplacements sont hérités. | Objet de référence, par exemple, « parent » : \$1"ref » : » myBaseObject Id "\$1 | 
| pipelineLogUri | L'URI Amazon S3, tel que 's3 ://BucketName/Prefix/ 'pour le téléchargement des journaux pour le pipeline. | String | 
| postStepCommand | Scripts shell à exécuter une fois toutes les étapes terminées. Pour spécifier plusieurs scripts, jusqu'à 255, ajoutez plusieurs champs postStepCommand. | String | 
| precondition | Définit une condition préalable facultative. Un nœud de données n'est pas marqué « READY » tant que toutes les conditions préalables ne sont pas remplies. | Objet de référence, par exemple, « précondition » : \$1"ref » : » myPreconditionId «\$1 | 
| preStepCommand | Scripts shell à exécuter avant l'exécution de toute étape. Pour spécifier plusieurs scripts, jusqu'à 255, ajoutez plusieurs champs preStepCommand. | String | 
| reportProgressTimeout | Délai pour les appels successifs de travail à distance adressés à reportProgress. Si une valeur est définie, les activités à distance qui ne font pas état d'avancement pour la période spécifiée doivent être considérées comme bloquées et, par conséquent, retentées. | Period | 
| resizeClusterBeforeCourir |  Redimensionnez le cluster avant d'effectuer cette activité afin de l'adapter aux tables DynamoDB spécifiées en entrée ou en sortie.   Si vous `EmrActivity` utilisez un `DynamoDBDataNode` comme nœud de données d'entrée ou de sortie, et si vous définissez le `resizeClusterBeforeRunning` to`TRUE`, AWS Data Pipeline commencez à utiliser des types d'`m3.xlarge`instance. Vos choix de type d'instance sont alors remplacés par `m3.xlarge`, ce qui peut accroître vos coûts mensuels.   | Booléen | 
| resizeClusterMaxInstances | Limite du nombre maximal d'instances qui peuvent être demandées par l'algorithme de redimensionnement. | Entier | 
| retryDelay | Délai entre deux nouvelles tentatives. | Period | 
| scheduleType | Le type de planification vous permet de spécifier si les objets de votre définition de pipeline doivent être planifiés au début ou à la fin de l'intervalle. Les valeurs sont : cron, ondemand et timeseries (cron, à la demande et séries chronologiques). La planification timeseries signifie que les instances sont programmées à la fin de chaque intervalle. La planification cron signifie que les instances sont programmées au début de chaque intervalle. Une planification ondemand vous permet d'exécuter un pipeline une fois par activation. Vous n'avez pas à cloner ou à recréer le pipeline pour l'exécuter à nouveau. Si vous utilisez une planification ondemand, elle doit être spécifiée dans l'objet par défaut et être le seul scheduleType spécifié pour les objets du pipeline. Pour utiliser des pipelines ondemand, vous devez appeler l'opération ActivatePipeline pour chaque exécution suivante.  | Énumération | 
| step | Une ou plusieurs étapes que le cluster doit exécuter. Pour spécifier plusieurs étapes, jusqu'à 255, ajoutez plusieurs champs step. Utilisez des arguments séparés par des virgules saisis après le nom de fichier JAR ; par exemple, s3://amzn-s3-demo-bucket/MyWork.jar,arg1,arg2,arg3. | String | 

 


****  

| Champs liés à l'exécution | Description | Type d'option | 
| --- | --- | --- | 
| @activeInstances | Liste des objets d'instances actives actuellement planifiés. | Objet de référence, par exemple « ActiveInstances » : \$1"ref » : » myRunnableObject Id "\$1 | 
| @actualEndTime | Heure à laquelle l'exécution de l'objet s'est terminée. | DateTime | 
| @actualStartTime | Heure à laquelle l'exécution de l'objet a démarré. | DateTime | 
| cancellationReason | Motif de l'annulation si l'objet a été annulé. | String | 
| @cascadeFailedOn | Description de la chaîne de dépendances sur laquelle l'objet a échoué. | Objet de référence, par exemple, "cascadeFailedOn« : \$1" ref » : » myRunnableObject Id "\$1 | 
| emrStepLog | Les journaux d'étapes Amazon EMR sont disponibles uniquement pour les tentatives d'activité EMR | String | 
| errorId | errorId si l'objet a échoué. | String | 
| errorMessage | errorMessage si l'objet a échoué. | String | 
| errorStackTrace | Suivi de la pile d'erreurs si l'objet a échoué. | String | 
| @finishedTime | Heure à laquelle l'objet a terminé son exécution. | DateTime | 
| hadoopJobLog | Journaux de travail Hadoop disponibles sur les tentatives pour les activités EMR. | String | 
| @healthStatus | État de santé de l'objet qui reflète la réussite ou l'échec de la dernière instance qui a atteint un état résilié. | String | 
| @healthStatusFromInstanceId | ID du dernier objet d'instance qui atteint un état résilié. | String | 
| @ healthStatusUpdated Heure | Heure à laquelle l'état de santé a été mis à jour pour la dernière fois. | DateTime | 
| hostname | Nom d'hôte du client qui a sélectionné la tentative de tâche. | String | 
| @lastDeactivatedTime | Heure à laquelle l'objet a été désactivé pour la dernière fois. | DateTime | 
| @ latestCompletedRun Heure | Heure de la dernière exécution pour laquelle l'exécution s'est terminée. | DateTime | 
| @latestRunTime | Heure de la dernière exécution pour laquelle l'exécution a été planifiée. | DateTime | 
| @nextRunTime | Prochaine heure d'exécution planifiée. | DateTime | 
| reportProgressTime | Heure la plus récente pour laquelle l'activité distante a signalé une progression. | DateTime | 
| @scheduledEndTime | Heure de fin planifiée pour l'objet. | DateTime | 
| @scheduledStartTime | Heure de début planifiée pour l'objet. | DateTime | 
| @État | État de l'objet. | String | 
| @Version | Version du pipeline avec laquelle l'objet a été créé. | String | 
| @waitingOn | Description de la liste des dépendances sur laquelle l'objet est en attente. | Objet de référence, par exemple, « WaitingOn » : \$1"ref » : » myRunnableObject Id "\$1 | 

 


****  

| Champs système | Description | Type d'option | 
| --- | --- | --- | 
| @error | Erreur décrivant l'objet mal formé. | String | 
| @pipelineId | ID du pipeline auquel l'objet appartient. | String | 
| @sphere | La sphère d'un objet désigne sa place dans le cycle de vie : les objets « composant » entraînent les objets « instance » qui exécutent les objets « tentative ». | String | 

## Voir aussi
<a name="emractivity-seealso"></a>
+ [ShellCommandActivity](dp-object-shellcommandactivity.md)
+ [CopyActivity](dp-object-copyactivity.md)
+ [EmrCluster](dp-object-emrcluster.md)

# HadoopActivity
<a name="dp-object-hadoopactivity"></a>

 Exécute une MapReduce tâche sur un cluster. Le cluster peut être un cluster EMR géré par AWS Data Pipeline ou une autre ressource si vous en utilisez. TaskRunner HadoopActivity À utiliser lorsque vous souhaitez exécuter un travail en parallèle. Cela vous permet d'utiliser les ressources de planification du framework YARN ou du négociateur de MapReduce ressources dans Hadoop 1. Si vous souhaitez exécuter le travail de manière séquentielle à l'aide de l'action Amazon EMR Step, vous pouvez toujours utiliser. [EmrActivity](dp-object-emractivity.md)

## Exemples
<a name="hadoopactivity-example"></a>

**HadoopActivity à l'aide d'un cluster EMR géré par AWS Data Pipeline**  
L' HadoopActivity objet suivant utilise une EmrCluster ressource pour exécuter un programme :

```
 {
   "name": "MyHadoopActivity",
   "schedule": {"ref": "ResourcePeriod"},
   "runsOn": {"ref": “MyEmrCluster”},
   "type": "HadoopActivity",
   "preActivityTaskConfig":{"ref":"preTaskScriptConfig”},   
   "jarUri": "/home/hadoop/contrib/streaming/hadoop-streaming.jar",
   "argument": [
     "-files",
     “s3://elasticmapreduce/samples/wordcount/wordSplitter.py“,
     "-mapper",
     "wordSplitter.py",
     "-reducer",
     "aggregate",
     "-input",
     "s3://elasticmapreduce/samples/wordcount/input/",
     "-output",
     “s3://amzn-s3-demo-bucket/MyHadoopActivity/#{@pipelineId}/#{format(@scheduledStartTime,'YYYY-MM-dd')}"
   ],
   "maximumRetries": "0",
   "postActivityTaskConfig":{"ref":"postTaskScriptConfig”},
   "hadoopQueue" : “high”
 }
```

Voici le correspondant*MyEmrCluster*, qui configure les files d'attente FairScheduler et dans YARN pour Hadoop 2 : AMIs

```
{
  "id" : "MyEmrCluster",
  "type" : "EmrCluster",
   "hadoopSchedulerType" : "PARALLEL_FAIR_SCHEDULING",
  “amiVersion” : “3.7.0”,
  "bootstrapAction" : ["s3://Region.elasticmapreduce/bootstrap-actions/configure-hadoop,-z,yarn.scheduler.capacity.root.queues=low\,high\,default,-z,yarn.scheduler.capacity.root.high.capacity=50,-z,yarn.scheduler.capacity.root.low.capacity=10,-z,yarn.scheduler.capacity.root.default.capacity=30”]
}
```

Voici ce que EmrCluster vous utilisez pour configurer FairScheduler dans Hadoop 1 :

```
{
      "id": "MyEmrCluster",
      "type": "EmrCluster",    
      "hadoopSchedulerType": "PARALLEL_FAIR_SCHEDULING",
      "amiVersion": "2.4.8",
      "bootstrapAction": "s3://Region.elasticmapreduce/bootstrap-actions/configure-hadoop,-m,mapred.queue.names=low\\\\,high\\\\,default,-m,mapred.fairscheduler.poolnameproperty=mapred.job.queue.name"
          }
```

Les configurations suivantes CapacityScheduler pour EmrCluster Hadoop 2 sont les suivantes : AMIs

```
{
      "id": "MyEmrCluster",
      "type": "EmrCluster",
      "hadoopSchedulerType": "PARALLEL_CAPACITY_SCHEDULING",
      "amiVersion": "3.7.0",
      "bootstrapAction": "s3://Region.elasticmapreduce/bootstrap-actions/configure-hadoop,-z,yarn.scheduler.capacity.root.queues=low\\\\,high,-z,yarn.scheduler.capacity.root.high.capacity=40,-z,yarn.scheduler.capacity.root.low.capacity=60"
    }
```

**HadoopActivity en utilisant un cluster EMR existant**  
Dans cet exemple, vous utilisez workergroups et a TaskRunner pour exécuter un programme sur un cluster EMR existant. La définition de pipeline suivante permet HadoopActivity de : 
+ Exécutez un MapReduce programme uniquement sur *myWorkerGroup* des ressources. Pour de plus amples informations sur les groupes de travail, consultez [Exécution de travaux sur des ressources existantes à l'aide de Task Runner](dp-how-task-runner-user-managed.md).
+ Exécuter une preActivityTask configuration et une postActivityTask configuration

```
{
  "objects": [
    {
      "argument": [
        "-files",
        "s3://elasticmapreduce/samples/wordcount/wordSplitter.py",
        "-mapper",
        "wordSplitter.py",
        "-reducer",
        "aggregate",
        "-input",
        "s3://elasticmapreduce/samples/wordcount/input/",
        "-output",
        "s3://amzn-s3-demo-bucket/MyHadoopActivity/#{@pipelineId}/#{format(@scheduledStartTime,'YYYY-MM-dd')}"
      ],
      "id": "MyHadoopActivity",
      "jarUri": "/home/hadoop/contrib/streaming/hadoop-streaming.jar",
      "name": "MyHadoopActivity",
      "type": "HadoopActivity"
    },
    {
      "id": "SchedulePeriod",
      "startDateTime": "start_datetime",
      "name": "SchedulePeriod",
      "period": "1 day",
      "type": "Schedule",
      "endDateTime": "end_datetime"
    },
    {
      "id": "ShellScriptConfig",
      "scriptUri": "s3://amzn-s3-demo-bucket/scripts/preTaskScript.sh",
      "name": "preTaskScriptConfig",
      "scriptArgument": [
        "test",
        "argument"
      ],
      "type": "ShellScriptConfig"
    },
    {
      "id": "ShellScriptConfig",
      "scriptUri": "s3://amzn-s3-demo-bucket/scripts/postTaskScript.sh",
      "name": "postTaskScriptConfig",
      "scriptArgument": [
        "test",
        "argument"
      ],
      "type": "ShellScriptConfig"
    },
    {
      "id": "Default",
      "scheduleType": "cron",
      "schedule": {
        "ref": "SchedulePeriod"
      },
      "name": "Default",
      "pipelineLogUri": "s3://amzn-s3-demo-bucket/logs/2015-05-22T18:02:00.343Z642f3fe415",
      "maximumRetries": "0",    
      "workerGroup": "myWorkerGroup",
      "preActivityTaskConfig": {
        "ref": "preTaskScriptConfig"
      },
      "postActivityTaskConfig": {
        "ref": "postTaskScriptConfig"
      }    
    }
  ] 
}
```

## Syntaxe
<a name="hadoopactivity-syntax"></a>


****  

| Champs obligatoires | Description | Type d'option | 
| --- | --- | --- | 
| jarUri | Emplacement d'un fichier JAR dans Amazon S3 ou dans le système de fichiers local du cluster à exécuter HadoopActivity. | String | 

 


****  

| Champs d'invocation de l'objet | Description | Type d'option | 
| --- | --- | --- | 
| schedule | Cet objet est appelé dans le cadre de l'exécution d'un intervalle de planification. Les utilisateurs doivent spécifier une référence de planification à un autre objet pour définir l'ordre d'exécution des dépendances de l'objet. Les utilisateurs peuvent satisfaire à cette exigence en définissant explicitement un calendrier sur l'objet, par exemple en spécifiant « schedule » : \$1"ref » : "DefaultSchedule«\$1. Dans la plupart des cas, il est préférable de placer la planification de référence sur l'objet de pipeline par défaut de manière à ce que tous les objets héritent cette planification. Ou, si le pipeline dispose d'une arborescence de planifications (planifications au sein de la planification maître), les utilisateurs peuvent créer un objet parent ayant une référence de planification. Pour plus d'informations sur les exemples de configurations de planification facultatives, consultez [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html). | Objet de référence, par exemple « schedule » : \$1"ref » : » myScheduleId «\$1 | 

 


****  

| Groupe obligatoire (l'un des groupes suivants est obligatoire) | Description | Type d'option | 
| --- | --- | --- | 
| runsOn | Cluster EMR sur lequel la tâche s'exécute. | Objet de référence, par exemple « RunSon » : \$1"ref » : » myEmrCluster Id "\$1 | 
| workerGroup | Groupe de travail. Utilisé pour les tâches d'acheminement. Si vous fournissez une valeur runsOn et que workerGroup existe, workerGroup est ignoré. | String | 

 


****  

| Champs facultatifs | Description | Type d'option | 
| --- | --- | --- | 
| argument | Arguments à passer au fichier JAR. | String | 
| attemptStatus | État de l'activité à distance le plus récemment rapporté. | String | 
| attemptTimeout | Délai d'achèvement de la tâche à distance. Si une valeur est définie, une activité à distance qui n'est pas exécutée dans le cadre de la période de départ définie peut être retentée. | Period | 
| dependsOn | Spécifie une dépendance sur un autre objet exécutable. | Objet de référence, par exemple « DependsOn » : \$1"ref » : » myActivityId «\$1 | 
| failureAndRerunMode | Décrit le comportement du nœud de consommateurs lorsque les dépendances échouent ou sont à nouveau exécutées. | Énumération | 
| hadoopQueue | Nom de la file d'attente du planificateur Hadoop dans laquelle l'activité est envoyée. | String | 
| input | Emplacement des données d'entrée. | Objet de référence, par exemple « input » : \$1"ref » : » myDataNode Id "\$1 | 
| lateAfterTimeout | Temps écoulé après le début du pipeline pendant lequel l'objet doit être terminé. Il est déclenché uniquement lorsque le type de planification n'est pas défini surondemand. | Period | 
| mainClass | Classe principale du fichier JAR avec lequel vous exécutez HadoopActivity. | String | 
| maxActiveInstances | Nombre maximal d'instances actives simultanées d'un composant. Les réexécutions ne sont pas comptabilisées dans le nombre d'instances actives. | Entier | 
| maximumRetries | Nombre maximal de nouvelles tentatives en cas d'échec | Entier | 
| onFail | Action à exécuter en cas d'échec de l'objet actuel. | Objet de référence, par exemple « onFail » : \$1"ref » : » myActionId «\$1 | 
| onLateAction | Actions à déclencher si un objet n'a pas encore été planifié ou n'est toujours pas terminé. | Objet de référence, par exemple "onLateAction« : \$1" ref » : » myActionId «\$1 | 
| onSuccess | Action à exécuter en cas de réussite de l'objet actuel. | Objet de référence, par exemple « onSuccess » : \$1"ref » : » myActionId «\$1 | 
| output | Emplacement des données de sortie. | Objet de référence, par exemple « output » : \$1"ref » : » myDataNode Id "\$1 | 
| parent | Parent de l'objet actuel à partir duquel les emplacements sont hérités. | Objet de référence, par exemple « parent » : \$1"ref » : » myBaseObject Id "\$1 | 
| pipelineLogUri | L'URI S3 (tel que 's3 ://BucketName/Key/ ') pour le téléchargement des journaux pour le pipeline. | String | 
| postActivityTaskConfig | Script de configuration de post-activité à exécuter. Se compose d'un URI du script shell dans Amazon S3 et d'une liste d'arguments. | Objet de référence, par exemple "postActivityTaskConfig » : \$1"ref » : » myShellScript ConfigId «\$1 | 
| preActivityTaskConfig | Script de configuration de pré-activité à exécuter. Se compose d'un URI du script shell dans Amazon S3 et d'une liste d'arguments. | Objet de référence, par exemple "preActivityTaskConfig » : \$1"ref » : » myShellScript ConfigId «\$1 | 
| precondition | Définit une condition préalable facultative. Un nœud de données n'est pas marqué « READY » tant que toutes les conditions préalables ne sont pas remplies. | Objet de référence, par exemple « précondition » : \$1"ref » : » myPreconditionId «\$1 | 
| reportProgressTimeout | Délai pour les appels successifs de travail à distance adressés à reportProgress. Si une valeur est définie, les activités à distance qui ne font pas état d'avancement pour la période spécifiée doivent être considérées comme bloquées et, par conséquent, retentées. | Period | 
| retryDelay | Délai entre deux nouvelles tentatives. | Period | 
| scheduleType | Le type de planification vous permet de spécifier si les objets de votre définition de pipeline doivent être planifiés au début ou à la fin de l'intervalle. Dans la planification de type séries chronologiques, les instances sont planifiées à la fin de chaque intervalle et dans la planification de type cron, les instances sont planifiées au début de chaque intervalle. Une planification à la demande vous permet d'exécuter un pipeline une fois par activation. Cela signifie que vous n'avez pas à cloner ou à recréer le pipeline pour l'exécuter à nouveau. Si vous utilisez une planification à la demande, elle doit être spécifiée dans l'objet par défaut et être le seul scheduleType pour les objets du pipeline. Pour utiliser des pipelines à la demande, il suffit d'appeler l' ActivatePipeline opération pour chaque exécution suivante. Les valeurs sont : cron, ondemand et timeseries (cron, à la demande et séries chronologiques). | Énumération | 

 


****  

| Champs liés à l'exécution | Description | Type d'option | 
| --- | --- | --- | 
| @activeInstances | Liste des objets d'instances actives actuellement planifiés. | Objet de référence, par exemple « ActiveInstances » : \$1"ref » : » myRunnableObject Id "\$1 | 
| @actualEndTime | Heure à laquelle l'exécution de l'objet s'est terminée. | DateTime | 
| @actualStartTime | Heure à laquelle l'exécution de l'objet a démarré. | DateTime | 
| cancellationReason | Motif de l'annulation si l'objet a été annulé. | String | 
| @cascadeFailedOn | Description de la chaîne de dépendances sur laquelle l'objet a échoué. | Objet de référence, par exemple "cascadeFailedOn« : \$1" ref » : » myRunnableObject Id "\$1 | 
| emrStepLog | Journaux d'étapes EMR disponibles uniquement sur les tentatives d'activité EMR | String | 
| errorId | ID de l'erreur si l'objet a échoué. | String | 
| errorMessage | errorMessage si l'objet a échoué. | String | 
| errorStackTrace | Suivi de la pile d'erreurs si l'objet a échoué. | String | 
| @finishedTime | Heure à laquelle l'objet a terminé son exécution. | DateTime | 
| hadoopJobLog | Journaux de travail Hadoop disponibles sur les tentatives pour les activités EMR. | String | 
| @healthStatus | État de santé de l'objet qui reflète la réussite ou l'échec de la dernière instance qui a atteint un état résilié. | String | 
| @healthStatusFromInstanceId | ID du dernier objet d'instance qui atteint un état résilié. | String | 
| @ healthStatusUpdated Heure | Heure à laquelle l'état de santé a été mis à jour pour la dernière fois. | DateTime | 
| hostname | Nom d'hôte du client qui a sélectionné la tentative de tâche. | String | 
| @lastDeactivatedTime | Heure à laquelle l'objet a été désactivé pour la dernière fois. | DateTime | 
| @ latestCompletedRun Heure | Heure de la dernière exécution pour laquelle l'exécution s'est terminée. | DateTime | 
| @latestRunTime | Heure de la dernière exécution pour laquelle l'exécution a été planifiée. | DateTime | 
| @nextRunTime | Prochaine heure d'exécution planifiée. | DateTime | 
| reportProgressTime | Heure la plus récente pour laquelle l'activité distante a signalé une progression. | DateTime | 
| @scheduledEndTime | Heure de fin planifiée pour l'objet. | DateTime | 
| @scheduledStartTime | Heure de début planifiée pour l'objet. | DateTime | 
| @État | État de l'objet. | String | 
| @Version | Version du pipeline avec laquelle l'objet été créé. | String | 
| @waitingOn | Description de la liste des dépendances sur laquelle l'objet est en attente. | Objet de référence, par exemple « WaitingOn » : \$1"ref » : » myRunnableObject Id "\$1 | 

 


****  

| Champs système | Description | Type d'option | 
| --- | --- | --- | 
| @error | Erreur décrivant l'objet mal formé. | String | 
| @pipelineId | Id du pipeline auquel l'objet appartient. | String | 
| @sphere | La sphère d'un objet désigne sa place dans le cycle de vie : les objets « composant » entraînent les objets « instance » qui exécutent les objets « tentative ». | String | 

## Voir aussi
<a name="hadoopactivity-seealso"></a>
+ [ShellCommandActivity](dp-object-shellcommandactivity.md)
+ [CopyActivity](dp-object-copyactivity.md)
+ [EmrCluster](dp-object-emrcluster.md)

# HiveActivity
<a name="dp-object-hiveactivity"></a>

Exécute une requête Hive sur un cluster EMR. `HiveActivity`facilite la configuration d'une activité Amazon EMR et crée automatiquement des tables Hive en fonction des données d'entrée provenant d'Amazon S3 ou d'Amazon RDS. Il suffit de spécifier le HiveQL à exécuter sur les données source. AWS Data Pipeline crée automatiquement des tables Hive avec `${input1}``${input2}`,, etc., en fonction des champs de saisie de l'`HiveActivity`objet. 

Pour les entrées Amazon S3, le `dataFormat` champ est utilisé pour créer les noms des colonnes Hive. 

Pour les entrées MySQL (Amazon RDS), les noms de colonne de la requête SQL sont utilisés pour créer les noms de colonnes Hive.

**Note**  
Cette activité utilise la [sérialisation/désérialisation (Serde) CSV](https://cwiki.apache.org/confluence/display/Hive/CSV+Serde) de Hive.

## Exemple
<a name="hiveactivity-example"></a>

Voici un exemple de ce type d'objet. Cet objet référence trois autres objets que vous définissez dans le même fichier de définition du pipeline. `MySchedule` est un objet `Schedule`. `MyS3Input` et `MyS3Output` sont des objets de nœud de données.

```
{
  "name" : "ProcessLogData",
  "id" : "MyHiveActivity",
  "type" : "HiveActivity",
  "schedule" : { "ref": "MySchedule" },
  "hiveScript" : "INSERT OVERWRITE TABLE ${output1} select host,user,time,request,status,size from ${input1};",
  "input" : { "ref": "MyS3Input" },
  "output" : { "ref": "MyS3Output" },
  "runsOn" : { "ref": "MyEmrCluster" }
}
```

## Syntaxe
<a name="hiveactivity-syntax"></a>


****  

| Champs d'invocation de l'objet | Description | Type d'option | 
| --- | --- | --- | 
| schedule | Cet objet est appelé dans le cadre de l'exécution d'un intervalle de planification. Spécifiez une référence de planification à un autre objet pour définir l'ordre d'exécution des dépendances de l'objet. Vous pouvez satisfaire à cette exigence en définissant explicitement un calendrier sur l'objet, par exemple en spécifiant « schedule » : \$1"ref » : "DefaultSchedule«\$1. Dans la plupart des cas, il est préférable de placer la planification de référence sur l'objet de pipeline par défaut de manière à ce que tous les objets héritent cette planification. Ou, si le pipeline dispose d'une arborescence de planifications (planifications au sein de la planification maître), vous pouvez créer un objet parent ayant une référence de planification. Pour plus d'informations sur les exemples de configurations de planification facultatives, consultez [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html). | Objet de référence, par exemple « schedule » : \$1"ref » : » myScheduleId «\$1 | 

 


****  

| Groupe obligatoire (l'un des groupes suivants est obligatoire) | Description | Type d'option | 
| --- | --- | --- | 
| hiveScript | Script Hive à exécuter. | String | 
| scriptUri | Emplacement du script Hive à exécuter (par exemple, s3://scriptLocation). | String | 

 


****  

| Groupe obligatoire | Description | Type d'option | 
| --- | --- | --- | 
| runsOn | Cluster EMR sur lequel HiveActivity s'exécute. | Objet de référence, par exemple « RunSon » : \$1"ref » : » myEmrCluster Id "\$1 | 
| workerGroup | Groupe de travail. Utilisé pour les tâches d'acheminement. Si vous fournissez une valeur runsOn et que workerGroup existe, workerGroup est ignoré. | String | 
| input | Source de données d'entrée. | Objet de référence, tel que « input » : \$1"ref » : » myDataNode Id "\$1 | 
| output | Source de données de sortie. | Objet de référence, tel que « output » : \$1"ref » : » myDataNode Id "\$1 | 

 


****  

| Champs facultatifs | Description | Type d'option | 
| --- | --- | --- | 
| attemptStatus | État de l'activité à distance le plus récemment rapporté. | String | 
| attemptTimeout | Délai d'achèvement de la tâche à distance. Si une valeur est définie, une activité à distance qui n'est pas exécutée dans le cadre de la période de départ définie peut être retentée. | Period | 
| dependsOn | Spécifie une dépendance sur un autre objet exécutable. | Objet de référence, tel que « DependsOn » : \$1"ref » : » myActivityId «\$1 | 
| failureAndRerunMode | Décrit le comportement du nœud de consommateurs lorsque les dépendances échouent ou sont à nouveau exécutées. | Énumération | 
| hadoopQueue | Nom de la file d'attente du programmeur Hadoop dans laquelle la tâche sera envoyée. | String | 
| lateAfterTimeout | Temps écoulé après le début du pipeline pendant lequel l'objet doit être terminé. Il est déclenché uniquement lorsque le type de planification n'est pas défini surondemand. | Period | 
| maxActiveInstances | Nombre maximal d'instances actives simultanées d'un composant. Les réexécutions ne sont pas comptabilisées dans le nombre d'instances actives. | Entier | 
| maximumRetries | Nombre maximal de nouvelles tentatives en cas d'échec. | Entier | 
| onFail | Action à exécuter en cas d'échec de l'objet actuel. | Objet de référence, tel que « onFail » : \$1"ref » : » myActionId «\$1 | 
| onLateAction | Actions à déclencher si un objet n'a pas encore été planifié ou n'est toujours pas terminé. | Objet de référence, tel que "onLateAction« : \$1" ref » : » myActionId «\$1 | 
| onSuccess | Action à exécuter en cas de réussite de l'objet actuel. | Objet de référence, tel que « onSuccess » : \$1"ref » : » myActionId «\$1 | 
| parent | Parent de l'objet actuel à partir duquel les emplacements sont hérités. | Objet de référence, tel que « parent » : \$1"ref » : » myBaseObject Id "\$1 | 
| pipelineLogUri | L'URI S3 (tel que 's3 ://BucketName/Key/ ') pour le téléchargement des journaux pour le pipeline. | String | 
| postActivityTaskConfig | Script de configuration de post-activité à exécuter. Se compose d'un URI du script shell dans Amazon S3 et d'une liste d'arguments. | Objet de référence, tel que "postActivityTaskConfig » : \$1"ref » : » myShellScript ConfigId «\$1 | 
| preActivityTaskConfig | Script de configuration de pré-activité à exécuter. Se compose d'un URI du script shell dans Amazon S3 et d'une liste d'arguments. | Objet de référence, tel que "preActivityTaskConfig » : \$1"ref » : » myShellScript ConfigId «\$1 | 
| precondition | Définit une condition préalable facultative. Un nœud de données n'est pas marqué « READY » tant que toutes les conditions préalables ne sont pas remplies. | Objet de référence, tel que « précondition » : \$1"ref » : » myPreconditionId «\$1 | 
| reportProgressTimeout | Délai pour les appels successifs de travail à distance adressés à reportProgress. Si une valeur est définie, les activités à distance qui ne font pas état d'avancement pour la période spécifiée doivent être considérées comme bloquées et, par conséquent, retentées. | Period | 
| resizeClusterBeforeCourir | Redimensionnez le cluster avant d'effectuer cette activité pour prendre en charge les nœuds de données DynamoDB spécifiés en entrée ou en sortie.  Si votre activité utilise un `DynamoDBDataNode` comme nœud de données d'entrée ou de sortie, et si vous définissez le `resizeClusterBeforeRunning` to`TRUE`, AWS Data Pipeline commence à utiliser des types d'`m3.xlarge`instance. Vos choix de type d'instance sont alors remplacés par `m3.xlarge`, ce qui peut accroître vos coûts mensuels.  | Booléen | 
| resizeClusterMaxInstances | Limite du nombre maximal d'instances qui peuvent être demandées par l'algorithme de redimensionnement. | Entier | 
| retryDelay | Délai entre deux nouvelles tentatives. | Period | 
| scheduleType | Le type de planification vous permet de spécifier si les objets de votre définition de pipeline doivent être planifiés au début ou à la fin de l'intervalle. Dans la planification de type séries chronologiques, les instances sont planifiées à la fin de chaque intervalle et dans la planification de type cron, les instances sont planifiées au début de chaque intervalle. Une planification à la demande vous permet d'exécuter un pipeline une fois par activation. Cela signifie que vous n'avez pas à cloner ou à recréer le pipeline pour l'exécuter à nouveau. Si vous utilisez une planification à la demande, elle doit être spécifiée dans l'objet par défaut et être le seul scheduleType pour les objets du pipeline. Pour utiliser des pipelines à la demande, il suffit d'appeler l' ActivatePipeline opération pour chaque exécution suivante. Les valeurs sont : cron, ondemand et timeseries (cron, à la demande et séries chronologiques). | Énumération | 
| scriptVariable | Spécifie les variables de script qu'Amazon EMR doit transmettre à Hive lors de l'exécution d'un script. Les exemples de variables de script suivants transmettent, respectivement, une variable SAMPLE et une variable FILTER\$1DATE à Hive : SAMPLE=s3://elasticmapreduce/samples/hive-ads et FILTER\$1DATE=\$1\$1format(@scheduledStartTime,'YYYY-MM-dd')\$1%. Ce champ accepte plusieurs valeurs et fonctionne avec les champs script et scriptUri. En outre, scriptVariable fonctionne que l'étape soit définie sur true ou false. Ce champ est particulièrement utile pour envoyer des valeurs dynamiques à Hive en utilisant des expressions et des fonctions AWS Data Pipeline . | String | 
| étape | Détermine si le transit est activé avant ou après l'exécution du script. Ce champ n'étant pas autorisé avec Hive 11, utilisez un AMI Amazon EMR version 3.2.0 ou ultérieure. | Booléen | 

 


****  

| Champs liés à l'exécution | Description | Type d'option | 
| --- | --- | --- | 
| @activeInstances | Liste des objets d'instances actives actuellement planifiés. | Objet de référence, tel que « ActiveInstances » : \$1"ref » : » myRunnableObject Id "\$1 | 
| @actualEndTime | Heure à laquelle l'exécution de l'objet s'est terminée. | DateTime | 
| @actualStartTime | Heure à laquelle l'exécution de l'objet a démarré. | DateTime | 
| cancellationReason | Motif de l'annulation si l'objet a été annulé. | String | 
| @cascadeFailedOn | Description de la chaîne de dépendances sur laquelle l'objet a échoué. | Objet de référence, tel que "cascadeFailedOn« : \$1" ref » : » myRunnableObject Id "\$1 | 
| emrStepLog | Les journaux d'étapes Amazon EMR sont disponibles uniquement pour les tentatives d'activité EMR. | String | 
| errorId | ID de l'erreur si l'objet a échoué. | String | 
| errorMessage | errorMessage si l'objet a échoué. | String | 
| errorStackTrace | Suivi de la pile d'erreurs si l'objet a échoué. | String | 
| @finishedTime | Heure à laquelle l'objet a terminé son exécution. | DateTime | 
| hadoopJobLog | Journaux de travail Hadoop disponibles sur les tentatives pour les activités EMR. | String | 
| @healthStatus | État de santé de l'objet qui reflète la réussite ou l'échec de la dernière instance qui a atteint un état résilié. | String | 
| @healthStatusFromInstanceId | ID du dernier objet d'instance qui atteint un état résilié. | String | 
| @ healthStatusUpdated Heure | Heure à laquelle l'état de santé a été mis à jour pour la dernière fois. | DateTime | 
| hostname | Nom d'hôte du client qui a sélectionné la tentative de tâche. | String | 
| @lastDeactivatedTime | Heure à laquelle l'objet a été désactivé pour la dernière fois. | DateTime | 
| @ latestCompletedRun Heure | Heure de la dernière exécution pour laquelle l'exécution s'est terminée. | DateTime | 
| @latestRunTime | Heure de la dernière exécution pour laquelle l'exécution a été planifiée. | DateTime | 
| @nextRunTime | Prochaine heure d'exécution planifiée. | DateTime | 
| reportProgressTime | Heure la plus récente pour laquelle l'activité distante a signalé une progression. | DateTime | 
| @scheduledEndTime | Heure de fin planifiée pour un objet. | DateTime | 
| @scheduledStartTime | Heure de début planifiée pour un objet. | DateTime | 
| @État | État de l'objet. | String | 
| @Version | Version du pipeline avec laquelle l'objet été créé. | String | 
| @waitingOn | Description de la liste des dépendances sur laquelle l'objet est en attente. | Objet de référence, tel que « WaitingOn » : \$1"ref » : » myRunnableObject Id "\$1 | 

 


****  

| Champs système | Description | Type d'option | 
| --- | --- | --- | 
| @error | Erreur décrivant l'objet mal formé. | String | 
| @pipelineId | ID du pipeline auquel l'objet appartient. | String | 
| @sphere | La sphère d'un objet désigne sa place dans le cycle de vie : les objets « composant » entraînent les objets « instance » qui exécutent les objets « tentative ». | String | 

## Voir aussi
<a name="hiveactivity-seealso"></a>
+ [ShellCommandActivity](dp-object-shellcommandactivity.md)
+ [EmrActivity](dp-object-emractivity.md)

# HiveCopyActivity
<a name="dp-object-hivecopyactivity"></a>

Exécute une requête Hive sur un cluster EMR. `HiveCopyActivity`facilite la copie de données entre les tables DynamoDB. `HiveCopyActivity`accepte une instruction HiveQL pour filtrer les données d'entrée de DynamoDB au niveau des colonnes et des lignes.

## Exemple
<a name="hivecopyactivity-example"></a>

L'exemple suivant montre comment utiliser `HiveCopyActivity` et `DynamoDBExportDataFormat` pour copier les données d'un `DynamoDBDataNode` dans un autre, tout en filtrant les données, en fonction de la date et de l'heure.

```
{
  "objects": [
    {
      "id" : "DataFormat.1",
      "name" : "DataFormat.1",
      "type" : "DynamoDBExportDataFormat",
      "column" : "timeStamp BIGINT"
    },
    {
      "id" : "DataFormat.2",
      "name" : "DataFormat.2",
      "type" : "DynamoDBExportDataFormat"
    },
    {
      "id" : "DynamoDBDataNode.1",
      "name" : "DynamoDBDataNode.1",
      "type" : "DynamoDBDataNode",
      "tableName" : "item_mapped_table_restore_temp",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.1" }
    },
    {
      "id" : "DynamoDBDataNode.2",
      "name" : "DynamoDBDataNode.2",
      "type" : "DynamoDBDataNode",
      "tableName" : "restore_table",
      "region" : "us_west_1",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.2" }
    },
    {
      "id" : "EmrCluster.1",
      "name" : "EmrCluster.1",
      "type" : "EmrCluster",
      "schedule" : { "ref" : "ResourcePeriod" },
      "masterInstanceType" : "m1.xlarge",
      "coreInstanceCount" : "4"
    },
    {
      "id" : "HiveTransform.1",
      "name" : "Hive Copy Transform.1",
      "type" : "HiveCopyActivity",
      "input" : { "ref" : "DynamoDBDataNode.1" },
      "output" : { "ref" : "DynamoDBDataNode.2" },
      "schedule" :{ "ref" : "ResourcePeriod" },
      "runsOn" : { "ref" : "EmrCluster.1" },
      "filterSql" : "`timeStamp` > unix_timestamp(\"#{@scheduledStartTime}\", \"yyyy-MM-dd'T'HH:mm:ss\")"
    },
    {
      "id" : "ResourcePeriod",
      "name" : "ResourcePeriod",
      "type" : "Schedule",
      "period" : "1 Hour",
      "startDateTime" : "2013-06-04T00:00:00",
      "endDateTime" : "2013-06-04T01:00:00"
    }
  ]
}
```

## Syntaxe
<a name="hivecopyactivity-syntax"></a>


****  

| Champs d'invocation de l'objet | Description | Type d'option | 
| --- | --- | --- | 
| schedule | Cet objet est appelé dans le cadre de l'exécution d'un intervalle de planification. Les utilisateurs doivent spécifier une référence de planification à un autre objet pour définir l'ordre d'exécution des dépendances de l'objet. Les utilisateurs peuvent satisfaire à cette exigence en définissant explicitement un calendrier sur l'objet, par exemple en spécifiant « schedule » : \$1"ref » : "DefaultSchedule«\$1. Dans la plupart des cas, il est préférable de placer la planification de référence sur l'objet de pipeline par défaut de manière à ce que tous les objets héritent cette planification. Ou, si le pipeline dispose d'une arborescence de planifications (planifications au sein de la planification maître), les utilisateurs peuvent créer un objet parent ayant une référence de planification. Pour plus d'informations sur les exemples de configurations de planification facultatives, consultez [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html). | Objet de référence, par exemple « schedule » : \$1"ref » : » myScheduleId «\$1 | 

 


****  

| Groupe obligatoire (l'un des groupes suivants est obligatoire) | Description | Type d'option | 
| --- | --- | --- | 
| runsOn | Spécifie le cluster sur lequel lancer l'exécution. | Objet de référence, par exemple « RunSon » : \$1"ref » : » myResourceId «\$1 | 
| workerGroup | Groupe de travail. Utilisé pour les tâches d'acheminement. Si vous fournissez une valeur runsOn et que workerGroup existe, workerGroup est ignoré. | String | 

 


****  

| Champs facultatifs | Description | Type d'option | 
| --- | --- | --- | 
| attemptStatus | État de l'activité à distance le plus récemment rapporté. | String | 
| attemptTimeout | Délai d'achèvement de la tâche à distance. Si une valeur est définie, une activité à distance qui n'est pas exécutée dans le cadre de la période de départ définie peut être retentée. | Period | 
| dependsOn | Spécifie la dépendance sur un autre objet exécutable. | Objet de référence, par exemple « DependsOn » : \$1"ref » : » myActivityId «\$1 | 
| failureAndRerunMode | Décrit le comportement du nœud de consommateurs lorsque les dépendances échouent ou sont à nouveau exécutées. | Énumération | 
| filterSql | Fragment d'instruction SQL Hive qui filtre un sous-ensemble de données DynamoDB ou Amazon S3 à copier. Le filtre ne doit contenir que des prédicats et ne pas commencer par une WHERE clause, car il l' AWS Data Pipeline ajoute automatiquement. | String | 
| input | Source de données d'entrée. Ce champ doit correspondre à S3DataNode ou DynamoDBDataNode. Si vous utilisez DynamoDBNode, spécifiez un DynamoDBExportDataFormat. | Objet de référence, par exemple « input » : \$1"ref » : » myDataNode Id "\$1 | 
| lateAfterTimeout | Temps écoulé après le début du pipeline pendant lequel l'objet doit être terminé. Il est déclenché uniquement lorsque le type de planification n'est pas défini surondemand. | Period | 
| maxActiveInstances | Nombre maximal d'instances actives simultanées d'un composant. Les réexécutions ne sont pas comptabilisées dans le nombre d'instances actives. | Entier | 
| maximumRetries | Nombre maximal de nouvelles tentatives en cas d'échec. | Entier | 
| onFail | Action à exécuter en cas d'échec de l'objet actuel. | Objet de référence, par exemple « onFail » : \$1"ref » : » myActionId «\$1 | 
| onLateAction | Actions à déclencher si un objet n'a pas encore été planifié ou n'est toujours pas terminé. | Objet de référence, par exemple "onLateAction« : \$1" ref » : » myActionId «\$1 | 
| onSuccess | Action à exécuter en cas de réussite de l'objet actuel. | Objet de référence, par exemple « onSuccess » : \$1"ref » : » myActionId «\$1 | 
| output | Source de données de sortie. Si l'entrée est S3DataNode, la sortie doit être DynamoDBDataNode. Sinon, la valeur peut être S3DataNode ou DynamoDBDataNode. Si vous utilisez DynamoDBNode, spécifiez un DynamoDBExportDataFormat. | Objet de référence, par exemple « output » : \$1"ref » : » myDataNode Id "\$1 | 
| parent | Parent de l'objet actuel à partir duquel les emplacements sont hérités. | Objet de référence, par exemple « parent » : \$1"ref » : » myBaseObject Id "\$1 | 
| pipelineLogUri | L'URI Amazon S3, par exemple 's3://BucketName/Key/', pour le téléchargement des journaux pour le pipeline. | String | 
| postActivityTaskConfig | Script de configuration de post-activité à exécuter. Se compose d'un URI du script shell dans Amazon S3 et d'une liste d'arguments. | Objet de référence, par exemple "postActivityTaskConfig » : \$1"ref » : » myShellScript ConfigId «\$1 | 
| preActivityTaskConfig | Script de configuration de pré-activité à exécuter. Se compose d'un URI du script shell dans Amazon S3 et d'une liste d'arguments. | Objet de référence, par exemple "preActivityTaskConfig » : \$1"ref » : » myShellScript ConfigId «\$1 | 
| precondition | Définit une condition préalable facultative. Un nœud de données n'est pas marqué « READY » tant que toutes les conditions préalables ne sont pas remplies. | Objet de référence, par exemple « précondition » : \$1"ref » : » myPreconditionId «\$1 | 
| reportProgressTimeout | Délai pour les appels successifs de travail à distance adressés à reportProgress. Si une valeur est définie, les activités à distance qui ne font pas état d'avancement pour la période spécifiée doivent être considérées comme bloquées et, par conséquent, retentées. | Period | 
| resizeClusterBeforeCourir | Redimensionnez le cluster avant d'effectuer cette activité pour prendre en charge les nœuds de données DynamoDB spécifiés en entrée ou en sortie.  Si votre activité utilise un `DynamoDBDataNode` comme nœud de données d'entrée ou de sortie, et si vous définissez le `resizeClusterBeforeRunning` to`TRUE`, AWS Data Pipeline commence à utiliser des types d'`m3.xlarge`instance. Vos choix de type d'instance sont alors remplacés par `m3.xlarge`, ce qui peut accroître vos coûts mensuels.  | Booléen | 
| resizeClusterMaxInstances | Limite du nombre maximal d'instances qui peuvent être demandées par l'algorithme de redimensionnement. | Entier | 
| retryDelay | Délai entre deux nouvelles tentatives. | Period | 
| scheduleType | Le type de planification vous permet de spécifier si les objets de votre définition de pipeline doivent être planifiés au début ou à la fin de l'intervalle. Dans la planification de type séries chronologiques, les instances sont planifiées à la fin de chaque intervalle et dans la planification de type cron, les instances sont planifiées au début de chaque intervalle. Une planification à la demande vous permet d'exécuter un pipeline une fois par activation. Cela signifie que vous n'avez pas à cloner ou à recréer le pipeline pour l'exécuter à nouveau. Si vous utilisez une planification à la demande, elle doit être spécifiée dans l'objet par défaut et être le seul scheduleType pour les objets du pipeline. Pour utiliser des pipelines à la demande, il suffit d'appeler l' ActivatePipeline opération pour chaque exécution suivante. Les valeurs sont : cron, ondemand et timeseries (cron, à la demande et séries chronologiques). | Énumération | 

 


****  

| Champs liés à l'exécution | Description | Type d'option | 
| --- | --- | --- | 
| @activeInstances | Liste des objets d'instances actives actuellement planifiés. | Objet de référence, par exemple « ActiveInstances » : \$1"ref » : » myRunnableObject Id "\$1 | 
| @actualEndTime | Heure à laquelle l'exécution de l'objet s'est terminée. | DateTime | 
| @actualStartTime | Heure à laquelle l'exécution de l'objet a démarré. | DateTime | 
| cancellationReason | Motif de l'annulation si l'objet a été annulé. | String | 
| @cascadeFailedOn | Description de la chaîne de dépendances sur laquelle l'objet a échoué. | Objet de référence, par exemple "cascadeFailedOn« : \$1" ref » : » myRunnableObject Id "\$1 | 
| emrStepLog | Les journaux d'étapes Amazon EMR sont disponibles uniquement pour les tentatives d'activité EMR. | String | 
| errorId | ID de l'erreur si l'objet a échoué. | String | 
| errorMessage | errorMessage si l'objet a échoué. | String | 
| errorStackTrace | Suivi de la pile d'erreurs si l'objet a échoué. | String | 
| @finishedTime | Heure à laquelle l'objet a terminé son exécution. | DateTime | 
| hadoopJobLog | Journaux de travail Hadoop disponibles sur les tentatives pour les activités EMR. | String | 
| @healthStatus | État de santé de l'objet qui reflète la réussite ou l'échec de la dernière instance qui a atteint un état résilié. | String | 
| @healthStatusFromInstanceId | ID du dernier objet d'instance qui atteint un état résilié. | String | 
| @ healthStatusUpdated Heure | Heure à laquelle l'état de santé a été mis à jour pour la dernière fois. | DateTime | 
| hostname | Nom d'hôte du client qui a sélectionné la tentative de tâche. | String | 
| @lastDeactivatedTime | Heure à laquelle l'objet a été désactivé pour la dernière fois. | DateTime | 
| @ latestCompletedRun Heure | Heure de la dernière exécution pour laquelle l'exécution s'est terminée. | DateTime | 
| @latestRunTime | Heure de la dernière exécution pour laquelle l'exécution a été planifiée. | DateTime | 
| @nextRunTime | Prochaine heure d'exécution planifiée. | DateTime | 
| reportProgressTime | Heure la plus récente pour laquelle l'activité distante a signalé une progression. | DateTime | 
| @scheduledEndTime | Heure de fin planifiée pour l'objet. | DateTime | 
| @scheduledStartTime | Heure de début planifiée pour l'objet. | DateTime | 
| @État | État de l'objet. | String | 
| @Version | Version du pipeline avec laquelle l'objet été créé. | String | 
| @waitingOn | Description de la liste des dépendances sur laquelle l'objet est en attente. | Objet de référence, par exemple « WaitingOn » : \$1"ref » : » myRunnableObject Id "\$1 | 

 


****  

| Champs système | Description | Type d'option | 
| --- | --- | --- | 
| @error | Erreur décrivant l'objet mal formé. | String | 
| @pipelineId | Id du pipeline auquel l'objet appartient. | String | 
| @sphere | La sphère d'un objet désigne sa place dans le cycle de vie : les objets « composant » entraînent les objets « instance » qui exécutent les objets « tentative ». | String | 

## Voir aussi
<a name="hivecopyactivity-seealso"></a>
+ [ShellCommandActivity](dp-object-shellcommandactivity.md)
+ [EmrActivity](dp-object-emractivity.md)

# PigActivity
<a name="dp-object-pigactivity"></a>

PigActivity fournit un support natif pour les scripts Pig AWS Data Pipeline sans qu'il soit nécessaire d'utiliser `ShellCommandActivity` ou`EmrActivity`. En outre, PigActivity prend en charge le transfert des données. Lorsque le champ « stage » est défini sur true, AWS Data Pipeline prépare les données d'entrée en tant que schéma dans Pig, sans code supplémentaire de l'utilisateur. 

## Exemple
<a name="pigactivity-example"></a>

L'exemple de pipeline suivant montre comment utiliser `PigActivity`. L'exemple de pipeline effectue les étapes suivantes :
+ MyPigActivity1 charge des données depuis Amazon S3 et exécute un script Pig qui sélectionne quelques colonnes de données et les télécharge sur Amazon S3.
+ MyPigActivity2 charge la première sortie, sélectionne quelques colonnes et trois lignes de données, puis la télécharge sur Amazon S3 en tant que deuxième sortie.
+ MyPigActivity3 charge les deuxièmes données de sortie, insère deux lignes de données et uniquement la colonne nommée « cinquième » sur Amazon RDS.
+ MyPigActivity4 charge les données Amazon RDS, sélectionne la première ligne de données et les télécharge sur Amazon S3.

```
{
  "objects": [
    {
      "id": "MyInputData1",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "directoryPath": "s3://amzn-s3-demo-bucket/pigTestInput",
      "name": "MyInputData1",
      "dataFormat": {
        "ref": "MyInputDataType1"
      },
      "type": "S3DataNode"
    },
    {
      "id": "MyPigActivity4",
      "scheduleType": "CRON",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "input": {
        "ref": "MyOutputData3"
      },
      "pipelineLogUri": "s3://amzn-s3-demo-bucket/path/",
      "name": "MyPigActivity4",
      "runsOn": {
        "ref": "MyEmrResource"
      },
      "type": "PigActivity",
      "dependsOn": {
        "ref": "MyPigActivity3"
      },
      "output": {
        "ref": "MyOutputData4"
      },
      "script": "B = LIMIT ${input1} 1; ${output1} = FOREACH B GENERATE one;",
      "stage": "true"
    },
    {
      "id": "MyPigActivity3",
      "scheduleType": "CRON",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "input": {
        "ref": "MyOutputData2"
      },
      "pipelineLogUri": "s3://amzn-s3-demo-bucket/path",
      "name": "MyPigActivity3",
      "runsOn": {
        "ref": "MyEmrResource"
      },
      "script": "B = LIMIT ${input1} 2; ${output1} = FOREACH B GENERATE Fifth;",
      "type": "PigActivity",
      "dependsOn": {
        "ref": "MyPigActivity2"
      },
      "output": {
        "ref": "MyOutputData3"
      },
      "stage": "true"
    },
    {
      "id": "MyOutputData2",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "name": "MyOutputData2",
      "directoryPath": "s3://amzn-s3-demo-bucket/PigActivityOutput2",
      "dataFormat": {
        "ref": "MyOutputDataType2"
      },
      "type": "S3DataNode"
    },
    {
      "id": "MyOutputData1",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "name": "MyOutputData1",
      "directoryPath": "s3://amzn-s3-demo-bucket/PigActivityOutput1",
      "dataFormat": {
        "ref": "MyOutputDataType1"
      },
      "type": "S3DataNode"
    },
    {
      "id": "MyInputDataType1",
      "name": "MyInputDataType1",
      "column": [
        "First STRING",
        "Second STRING",
        "Third STRING",
        "Fourth STRING",
        "Fifth STRING",
        "Sixth STRING",
        "Seventh STRING",
        "Eighth STRING",
        "Ninth STRING",
        "Tenth STRING"
      ],
      "inputRegEx": "^(\\\\S+) (\\\\S+) (\\\\S+) (\\\\S+) (\\\\S+) (\\\\S+) (\\\\S+) (\\\\S+) (\\\\S+) (\\\\S+)",
      "type": "RegEx"
    },
    {
      "id": "MyEmrResource",
      "region": "us-east-1",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "keyPair": "example-keypair",
      "masterInstanceType": "m1.small",
      "enableDebugging": "true",
      "name": "MyEmrResource",
      "actionOnTaskFailure": "continue",
      "type": "EmrCluster"
    },
    {
      "id": "MyOutputDataType4",
      "name": "MyOutputDataType4",
      "column": "one STRING",
      "type": "CSV"
    },
    {
      "id": "MyOutputData4",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "directoryPath": "s3://amzn-s3-demo-bucket/PigActivityOutput3",
      "name": "MyOutputData4",
      "dataFormat": {
        "ref": "MyOutputDataType4"
      },
      "type": "S3DataNode"
    },
    {
      "id": "MyOutputDataType1",
      "name": "MyOutputDataType1",
      "column": [
        "First STRING",
        "Second STRING",
        "Third STRING",
        "Fourth STRING",
        "Fifth STRING",
        "Sixth STRING",
        "Seventh STRING",
        "Eighth STRING"
      ],
      "columnSeparator": "*",
      "type": "Custom"
    },
    {
      "id": "MyOutputData3",
      "username": "___",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "insertQuery": "insert into #{table} (one) values (?)",
      "name": "MyOutputData3",
      "*password": "___",
      "runsOn": {
        "ref": "MyEmrResource"
      },
      "connectionString": "jdbc:mysql://example-database-instance:3306/example-database",
      "selectQuery": "select * from #{table}",
      "table": "example-table-name",
      "type": "MySqlDataNode"
    },
    {
      "id": "MyOutputDataType2",
      "name": "MyOutputDataType2",
      "column": [
        "Third STRING",
        "Fourth STRING",
        "Fifth STRING",
        "Sixth STRING",
        "Seventh STRING",
        "Eighth STRING"
      ],
      "type": "TSV"
    },
    {
      "id": "MyPigActivity2",
      "scheduleType": "CRON",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "input": {
        "ref": "MyOutputData1"
      },
      "pipelineLogUri": "s3://amzn-s3-demo-bucket/path",
      "name": "MyPigActivity2",
      "runsOn": {
        "ref": "MyEmrResource"
      },
      "dependsOn": {
        "ref": "MyPigActivity1"
      },
      "type": "PigActivity",
      "script": "B = LIMIT ${input1} 3; ${output1} = FOREACH B GENERATE Third, Fourth, Fifth, Sixth, Seventh, Eighth;",
      "output": {
        "ref": "MyOutputData2"
      },
      "stage": "true"
    },
    {
      "id": "MyEmrResourcePeriod",
      "startDateTime": "2013-05-20T00:00:00",
      "name": "MyEmrResourcePeriod",
      "period": "1 day",
      "type": "Schedule",
      "endDateTime": "2013-05-21T00:00:00"
    },
    {
      "id": "MyPigActivity1",
      "scheduleType": "CRON",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "input": {
        "ref": "MyInputData1"
      },
      "pipelineLogUri": "s3://amzn-s3-demo-bucket/path",
      "scriptUri": "s3://amzn-s3-demo-bucket/script/pigTestScipt.q",
      "name": "MyPigActivity1",
      "runsOn": {
        "ref": "MyEmrResource"
      },
      "scriptVariable": [
        "column1=First",
        "column2=Second",
        "three=3"
      ],
      "type": "PigActivity",
      "output": {
        "ref": "MyOutputData1"
      },
      "stage": "true"
    }
  ]
}
```

Le contenu de `pigTestScript.q` est le suivant.

```
B = LIMIT ${input1} $three; ${output1} = FOREACH B GENERATE $column1, $column2, Third, Fourth, Fifth, Sixth, Seventh, Eighth;
```

## Syntaxe
<a name="pigactivity-syntax"></a>


****  

| Champs d'invocation de l'objet | Description | Type d'option | 
| --- | --- | --- | 
| schedule | Cet objet est appelé dans le cadre de l'exécution d'un intervalle de planification. Les utilisateurs doivent spécifier une référence de planification à un autre objet pour définir l'ordre d'exécution des dépendances de l'objet. Les utilisateurs peuvent satisfaire à cette exigence en définissant explicitement un calendrier sur l'objet, par exemple en spécifiant « schedule » : \$1"ref » : "DefaultSchedule«\$1. Dans la plupart des cas, il est préférable de placer la planification de référence sur l'objet de pipeline par défaut de manière à ce que tous les objets héritent cette planification. Ou, si le pipeline dispose d'une arborescence de planifications (planifications au sein de la planification maître), les utilisateurs peuvent créer un objet parent ayant une référence de planification. Pour plus d'informations sur les exemples de configurations de planification facultatives, consultez [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html). | Objet de référence, par exemple, « schedule » : \$1"ref » : » myScheduleId «\$1 | 

 


****  

| Groupe obligatoire (l'un des groupes suivants est obligatoire) | Description | Type d'option | 
| --- | --- | --- | 
| script | Script Pig à exécuter. | String | 
| scriptUri | Emplacement du script Pig à exécuter (par exemple, s3://scriptLocation). | String | 

 


****  

| Groupe obligatoire (l'un des groupes suivants est obligatoire) | Description | Type d'option | 
| --- | --- | --- | 
| runsOn | Cluster EMR sur lequel cela s' PigActivity exécute. | Objet de référence, par exemple, « RunSon » : \$1"ref » : » myEmrCluster Id "\$1 | 
| workerGroup | Groupe de travail. Utilisé pour les tâches d'acheminement. Si vous fournissez une valeur runsOn et que workerGroup existe, workerGroup est ignoré. | String | 

 


****  

| Champs facultatifs | Description | Type d'option | 
| --- | --- | --- | 
| attemptStatus | État de l'activité à distance le plus récemment rapporté. | String | 
| attemptTimeout | Délai d'achèvement de la tâche à distance. Si une valeur est définie, une activité à distance qui n'est pas exécutée dans le cadre de la période de départ définie peut être retentée. | Period | 
| dependsOn | Spécifie la dépendance sur un autre objet exécutable. | Objet de référence, par exemple, « DependsOn » : \$1"ref » : » myActivityId «\$1 | 
| failureAndRerunMode | Décrit le comportement du nœud de consommateurs lorsque les dépendances échouent ou sont à nouveau exécutées. | Énumération | 
| input | Source de données d'entrée. | Objet de référence, par exemple, « input » : \$1"ref » : » myDataNode Id "\$1 | 
| lateAfterTimeout | Temps écoulé après le début du pipeline pendant lequel l'objet doit être terminé. Il est déclenché uniquement lorsque le type de planification n'est pas défini surondemand. | Period | 
| maxActiveInstances | Nombre maximal d'instances actives simultanées d'un composant. Les réexécutions ne sont pas comptabilisées dans le nombre d'instances actives. | Entier | 
| maximumRetries | Nombre maximal de nouvelles tentatives en cas d'échec. | Entier | 
| onFail | Action à exécuter en cas d'échec de l'objet actuel. | Objet de référence, par exemple, « onFail » : \$1"ref » : » myActionId «\$1 | 
| onLateAction | Actions à déclencher si un objet n'a pas encore été planifié ou n'est toujours pas terminé. | Objet de référence, par exemple, "onLateAction« : \$1" ref » : » myActionId «\$1 | 
| onSuccess | Action à exécuter en cas de réussite de l'objet actuel. | Objet de référence, par exemple, « onSuccess » : \$1"ref » : » myActionId «\$1 | 
| output | Source de données de sortie. | Objet de référence, par exemple, « output » : \$1"ref » : » myDataNode Id "\$1 | 
| parent | Parent de l'objet actuel à partir duquel les emplacements sont hérités. | Objet de référence, par exemple, « parent » : \$1"ref » : » myBaseObject Id "\$1 | 
| pipelineLogUri | L'URI Amazon S3 (tel que 's3 ://BucketName/Key/ ') pour le téléchargement des journaux pour le pipeline. | String | 
| postActivityTaskConfig | Script de configuration de post-activité à exécuter. Il s'agit d'un URI du script shell dans Amazon S33 et d'une liste d'arguments. | Objet de référence, par exemple, "postActivityTaskConfig » : \$1"ref » : » myShellScript ConfigId «\$1 | 
| preActivityTaskConfig | Script de configuration de pré-activité à exécuter. Se compose d'un URI du script shell dans Amazon S3 et d'une liste d'arguments. | Objet de référence, par exemple, "preActivityTaskConfig » : \$1"ref » : » myShellScript ConfigId «\$1 | 
| precondition | Définit une condition préalable facultative. Un nœud de données n'est pas marqué « READY » tant que toutes les conditions préalables ne sont pas remplies. | Objet de référence, par exemple, « précondition » : \$1"ref » : » myPreconditionId «\$1 | 
| reportProgressTimeout | Délai pour les appels successifs de travail à distance adressés à reportProgress. Si une valeur est définie, les activités à distance qui ne font pas état d'avancement pour la période spécifiée doivent être considérées comme bloquées et, par conséquent, retentées. | Period | 
| resizeClusterBeforeCourir | Redimensionnez le cluster avant d'effectuer cette activité pour prendre en charge les nœuds de données DynamoDB spécifiés en entrée ou en sortie. Si votre activité utilise un `DynamoDBDataNode` comme nœud de données d'entrée ou de sortie, et si vous définissez le `resizeClusterBeforeRunning` to`TRUE`, AWS Data Pipeline commence à utiliser des types d'`m3.xlarge`instance. Vos choix de type d'instance sont alors remplacés par `m3.xlarge`, ce qui peut accroître vos coûts mensuels.  | Booléen | 
| resizeClusterMaxInstances | Limite du nombre maximal d'instances qui peuvent être demandées par l'algorithme de redimensionnement. | Entier | 
| retryDelay | Délai entre deux nouvelles tentatives. | Period | 
| scheduleType | Le type de planification vous permet de spécifier si les objets de votre définition de pipeline doivent être planifiés au début ou à la fin de l'intervalle. Dans la planification de type séries chronologiques, les instances sont planifiées à la fin de chaque intervalle et dans la planification de type cron, les instances sont planifiées au début de chaque intervalle. Une planification à la demande vous permet d'exécuter un pipeline une fois par activation. Cela signifie que vous n'avez pas à cloner ou à recréer le pipeline pour l'exécuter à nouveau. Si vous utilisez une planification à la demande, elle doit être spécifiée dans l'objet par défaut et être le seul scheduleType pour les objets du pipeline. Pour utiliser des pipelines à la demande, il suffit d'appeler l' ActivatePipeline opération pour chaque exécution suivante. Les valeurs sont : cron, ondemand et timeseries (cron, à la demande et séries chronologiques). | Énumération | 
| scriptVariable | Arguments à transmettre au script Pig. Vous pouvez utiliser scriptVariable avec script ou scriptUri. | String | 
| étape | Détermine si le staging est activé et autorise votre script Pig à accéder aux tables de données intermédiaires, telles que \$1 \$1INPUT1\$1 et \$1 \$1OUTPUT1\$1. | Booléen | 

 


****  

| Champs liés à l'exécution | Description | Type d'option | 
| --- | --- | --- | 
| @activeInstances | Liste des objets d'instances actives actuellement planifiés. | Objet de référence, par exemple, « ActiveInstances » : \$1"ref » : » myRunnableObject Id "\$1 | 
| @actualEndTime | Heure à laquelle l'exécution de l'objet s'est terminée. | DateTime | 
| @actualStartTime | Heure à laquelle l'exécution de l'objet a démarré. | DateTime | 
| cancellationReason | Motif de l'annulation si l'objet a été annulé. | String | 
| @cascadeFailedOn | Description de la chaîne de dépendances sur laquelle l'objet a échoué. | Objet de référence, par exemple, "cascadeFailedOn« : \$1" ref » : » myRunnableObject Id "\$1 | 
| emrStepLog | Les journaux d'étapes Amazon EMR sont disponibles uniquement pour les tentatives d'activité EMR. | String | 
| errorId | ID de l'erreur si l'objet a échoué. | String | 
| errorMessage | errorMessage si l'objet a échoué. | String | 
| errorStackTrace | Suivi de la pile d'erreurs si l'objet a échoué. | String | 
| @finishedTime | Heure à laquelle l'objet a terminé son exécution. | DateTime | 
| hadoopJobLog | Journaux de travail Hadoop disponibles sur les tentatives pour les activités EMR. | String | 
| @healthStatus | État de santé de l'objet qui reflète la réussite ou l'échec de la dernière instance qui a atteint un état résilié. | String | 
| @healthStatusFromInstanceId | ID du dernier objet d'instance qui atteint un état résilié. | String | 
| @ healthStatusUpdated Heure | Heure à laquelle l'état de santé a été mis à jour pour la dernière fois. | DateTime | 
| hostname | Nom d'hôte du client qui a sélectionné la tentative de tâche. | String | 
| @lastDeactivatedTime | Heure à laquelle l'objet a été désactivé pour la dernière fois. | DateTime | 
| @ latestCompletedRun Heure | Heure de la dernière exécution pour laquelle l'exécution s'est terminée. | DateTime | 
| @latestRunTime | Heure de la dernière exécution pour laquelle l'exécution a été planifiée. | DateTime | 
| @nextRunTime | Prochaine heure d'exécution planifiée. | DateTime | 
| reportProgressTime | Heure la plus récente pour laquelle l'activité distante a signalé une progression. | DateTime | 
| @scheduledEndTime | Heure de fin planifiée pour l'objet. | DateTime | 
| @scheduledStartTime | Heure de début planifiée pour l'objet. | DateTime | 
| @État | État de l'objet. | String | 
| @Version | Version du pipeline avec laquelle l'objet a été créé. | String | 
| @waitingOn | Description de la liste des dépendances sur laquelle l'objet est en attente. | Objet de référence, par exemple, « WaitingOn » : \$1"ref » : » myRunnableObject Id "\$1 | 

 


****  

| Champs système | Description | Type d'option | 
| --- | --- | --- | 
| @error | Erreur décrivant l'objet mal formé. | String | 
| @pipelineId | ID du pipeline auquel l'objet appartient. | String | 
| @sphere | La sphère d'un objet désigne sa place dans le cycle de vie : les objets « composant » entraînent les objets « instance » qui exécutent les objets « tentative ». | String | 

## Voir aussi
<a name="pigactivity-seealso"></a>
+ [ShellCommandActivity](dp-object-shellcommandactivity.md)
+ [EmrActivity](dp-object-emractivity.md)

# RedshiftCopyActivity
<a name="dp-object-redshiftcopyactivity"></a>

Copie les données depuis DynamoDB ou Amazon S3 vers Amazon Redshift. Vous pouvez charger les données dans une nouvelle table ou les fusionner facilement dans une table existante.

Voici une présentation d'un cas d'utilisation dans lequel vous pouvez utiliser `RedshiftCopyActivity` :

1. Commencez par utiliser AWS Data Pipeline pour stocker vos données dans Amazon S3. 

1. `RedshiftCopyActivity`À utiliser pour déplacer les données d'Amazon RDS et d'Amazon EMR vers Amazon Redshift.

   Cela vous permet de charger vos données dans Amazon Redshift où vous pouvez les analyser.

1. [SqlActivity](dp-object-sqlactivity.md)À utiliser pour exécuter des requêtes SQL sur les données que vous avez chargées dans Amazon Redshift.

 En outre, `RedshiftCopyActivity` prend en charge un fichier manifeste et vous permet donc d'utiliser un `S3DataNode`. Pour de plus amples informations, veuillez consulter [S3 DataNode](dp-object-s3datanode.md).

## Exemple
<a name="redshiftcopyactivity-example"></a>

Voici un exemple de ce type d'objet. 

Pour prendre en charge les formats de conversion, cet exemple utilise les paramètres de conversion spéciaux [EMPTYASNULL](https://docs.aws.amazon.com/redshift/latest/dg/copy-parameters-data-conversion.html#copy-emptyasnull) et [IGNOREBLANKLINES](https://docs.aws.amazon.com/redshift/latest/dg/copy-parameters-data-conversion.html#copy-ignoreblanklines) dans `commandOptions`. Pour plus d'informations, consultez la section [Paramètres de conversion des données](https://docs.aws.amazon.com/redshift/latest/dg/copy-parameters-data-conversion.html) dans le manuel *Amazon Redshift Database Developer Guide*.

```
{
  "id" : "S3ToRedshiftCopyActivity",
  "type" : "RedshiftCopyActivity",
  "input" : { "ref": "MyS3DataNode" },
  "output" : { "ref": "MyRedshiftDataNode" },
  "insertMode" : "KEEP_EXISTING",
  "schedule" : { "ref": "Hour" },
  "runsOn" : { "ref": "MyEc2Resource" },
  "commandOptions": ["EMPTYASNULL", "IGNOREBLANKLINES"]
}
```

L'exemple de définition de pipeline suivant illustre une activité qui utilise le mode d'insertion `APPEND` :

```
{
  "objects": [
    {
      "id": "CSVId1",
      "name": "DefaultCSV1",
      "type": "CSV"
    },
    {
      "id": "RedshiftDatabaseId1",
      "databaseName": "dbname",
      "username": "user",
      "name": "DefaultRedshiftDatabase1",
      "*password": "password",
      "type": "RedshiftDatabase",
      "clusterId": "redshiftclusterId"
    },
    {
      "id": "Default",
      "scheduleType": "timeseries",
      "failureAndRerunMode": "CASCADE",
      "name": "Default",
      "role": "DataPipelineDefaultRole",
      "resourceRole": "DataPipelineDefaultResourceRole"
    },
    {
      "id": "RedshiftDataNodeId1",
      "schedule": {
        "ref": "ScheduleId1"
      },
      "tableName": "orders",
      "name": "DefaultRedshiftDataNode1",
      "createTableSql": "create table StructuredLogs (requestBeginTime CHAR(30) PRIMARY KEY DISTKEY SORTKEY, requestEndTime CHAR(30), hostname CHAR(100), requestDate varchar(20));",
      "type": "RedshiftDataNode",
      "database": {
        "ref": "RedshiftDatabaseId1"
      }
    },
    {
      "id": "Ec2ResourceId1",
      "schedule": {
        "ref": "ScheduleId1"
      },
      "securityGroups": "MySecurityGroup",
      "name": "DefaultEc2Resource1",
      "role": "DataPipelineDefaultRole",
      "logUri": "s3://myLogs",
      "resourceRole": "DataPipelineDefaultResourceRole",
      "type": "Ec2Resource"
    },
    {
      "id": "ScheduleId1",
      "startDateTime": "yyyy-mm-ddT00:00:00",
      "name": "DefaultSchedule1",
      "type": "Schedule",
      "period": "period",
      "endDateTime": "yyyy-mm-ddT00:00:00"
    },
    {
      "id": "S3DataNodeId1",
      "schedule": {
        "ref": "ScheduleId1"
      },
      "filePath": "s3://datapipeline-us-east-1/samples/hive-ads-samples.csv",
      "name": "DefaultS3DataNode1",
      "dataFormat": {
        "ref": "CSVId1"
      },
      "type": "S3DataNode"
    },
    {
      "id": "RedshiftCopyActivityId1",
      "input": {
        "ref": "S3DataNodeId1"
      },
      "schedule": {
        "ref": "ScheduleId1"
      },
      "insertMode": "APPEND",
      "name": "DefaultRedshiftCopyActivity1",
      "runsOn": {
        "ref": "Ec2ResourceId1"
      },
      "type": "RedshiftCopyActivity",
      "output": {
        "ref": "RedshiftDataNodeId1"
      }
    }
  ]
}
```

`APPEND`L'opération ajoute des éléments à une table, quelles que soient les clés primaires ou les clés de tri. Par exemple, si vous avez le tableau suivant, vous pouvez ajouter un enregistrement avec les mêmes valeurs d'ID et d'utilisateur.

```
ID(PK)     USER
1          aaa
2          bbb
```

Vous pouvez ajouter un enregistrement avec les mêmes valeurs d'ID et d'utilisateur.

```
ID(PK)     USER
1          aaa
2          bbb
1          aaa
```

**Note**  
Si une opération `APPEND` est interrompue et retentée, le pipeline de réexécution résultant ajoute potentiellement depuis le début. Comme cela peut entraîner de nouvelles duplications, soyez conscient de ce comportement, en particulier si vous avez une logique qui comptabilise le nombre de lignes.

Pour obtenir un didacticiel, consultez [Copiez des données sur Amazon Redshift à l'aide de AWS Data Pipeline](dp-copydata-redshift.md).

## Syntaxe
<a name="redshiftcopyactivity-syntax"></a>


****  

| Champs obligatoires | Description | Type d'option | 
| --- | --- | --- | 
| insertMode |   Détermine AWS Data Pipeline le sort des données préexistantes de la table cible qui chevauchent les lignes des données à charger. Les valeurs valides sont : `KEEP_EXISTING`, `OVERWRITE_EXISTING`, `TRUNCATE` et `APPEND`. `KEEP_EXISTING` ajoute de nouvelles lignes à la table, en conservant toutes les lignes existantes non modifiées. `KEEP_EXISTING` et` OVERWRITE_EXISTING` utilise les clés primaire, de tri et de distribution pour identifier les lignes entrantes à associer aux lignes existantes. Consultez la section [Mise à jour et insertion de nouvelles données](https://docs.aws.amazon.com/redshift/latest/dg/t_updating-inserting-using-staging-tables-.html) dans le manuel Amazon *Redshift Database* Developer Guide.  `TRUNCATE` supprime toutes les données de la table de destination avant d'écrire les nouvelles données.  `APPEND` ajoute tous les enregistrements à la fin de la table Redshift. `APPEND` ne nécessite aucune clé primaire, de distribution ou de tri, par conséquent, des doublons potentiels peuvent être ajoutés.  | Énumération | 

 


****  

| Champs d'invocation de l'objet | Description | Type d'option | 
| --- | --- | --- | 
| schedule |  Cet objet est appelé dans le cadre de l'exécution d'un intervalle de planification.  Spécifiez une référence de planification à un autre objet pour définir l'ordre d'exécution des dépendances de l'objet.  Dans la plupart des cas, nous vous recommandons de placer la planification de référence sur l'objet de pipeline par défaut de manière à ce que tous les objets héritent cette planification. Vous pouvez, par exemple, définir explicitement une planification sur l'objet en spécifiant `"schedule": {"ref": "DefaultSchedule"}`.  Si la planification maître de votre pipeline contient des planifications imbriquées, créez un objet parent ayant une référence de planification.  Pour obtenir des exemples de configurations de planification facultatives, consultez la section [Planification](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html).   | Objet de référence, tel que : "schedule":\$1"ref":"myScheduleId"\$1 | 

 


****  

| Groupe obligatoire (l'un des groupes suivants est obligatoire) | Description | Type d'option | 
| --- | --- | --- | 
| runsOn | Ressource de calcul pour exécuter l'activité ou la commande. Par exemple, une instance Amazon EC2 ou un cluster Amazon EMR. | Objet de référence, par exemple « RunSon » : \$1"ref » : » myResourceId «\$1 | 
| workerGroup | Groupe de travail. Utilisé pour les tâches d'acheminement. Si vous fournissez une valeur runsOn et que workerGroup existe, workerGroup est ignoré. | String | 

 


****  

| Champs facultatifs | Description | Type d'option | 
| --- | --- | --- | 
| attemptStatus | État de l'activité à distance le plus récemment rapporté. | String | 
| attemptTimeout | Délai d'achèvement de la tâche à distance. Si une valeur est définie, une activité à distance qui n'est pas exécutée dans le cadre de la période de départ définie peut être retentée. | Period | 
| commandOptions |  Prend des paramètres à transmettre au nœud de données Amazon Redshift pendant l'`COPY`opération. Pour plus d'informations sur les paramètres, consultez [COPY](https://docs.aws.amazon.com/redshift/latest/dg/r_COPY.html) dans le manuel Amazon Redshift *Database Developer Guide*. Lorsqu'elle charge la table, la commande `COPY` tente implicitement de convertir les chaînes dans le type de données de la colonne cible. En plus des conversions de données par défaut qui s'exécutent de façon automatique, si vous rencontrez des erreurs ou si vous avez d'autres besoins de conversion, vous pouvez spécifier des paramètres de conversion supplémentaires. Pour plus d'informations, consultez la section [Paramètres de conversion des données](https://docs.aws.amazon.com/redshift/latest/dg/copy-parameters-data-conversion.html) dans le manuel Amazon Redshift *Database Developer Guide*. Si un format de données est associé au nœud de données d'entrée ou de sortie, les paramètres fournis sont ignorés.  Dans la mesure où l'opération de copie utilise d'abord `COPY` pour insérer des données dans une table intermédiaire, puis utilise une commande `INSERT` pour copier les données de la table intermédiaire dans la table de destination, certains paramètres de la commande `COPY` ne s'appliquent pas, comme la fonction de la commande `COPY` qui lui permet d'activer la compression automatique de la table. Si une compression est nécessaire, ajoutez les détails d'encodage de colonne à l'instruction `CREATE TABLE`.  De plus, dans certains cas, lorsqu'il doit décharger des données du cluster Amazon Redshift et créer des fichiers dans Amazon S3, il s'appuie sur `RedshiftCopyActivity` `UNLOAD` l'opération d'Amazon Redshift. Pour améliorer les performances pendant la copie et le déchargement, spécifiez le paramètre `PARALLEL OFF` à partir de la commande `UNLOAD`. Pour plus d'informations sur les paramètres, consultez [UNLOAD](https://docs.aws.amazon.com/redshift/latest/dg/r_UNLOAD.html) dans le manuel Amazon *Redshift Database* Developer Guide.  | String | 
| dependsOn | Spécifie une dépendance sur un autre objet exécutable. | Objet de référence : "dependsOn":\$1"ref":"myActivityId"\$1 | 
| failureAndRerunMode | Décrit le comportement du nœud de consommateurs lorsque les dépendances échouent ou sont à nouveau exécutées. | Énumération | 
| input | Nœud de données d'entrée. La source de données peut être Amazon S3, DynamoDB ou Amazon Redshift. | Objet de référence :  "input":\$1"ref":"myDataNodeId"\$1 | 
| lateAfterTimeout | Temps écoulé après le début du pipeline pendant lequel l'objet doit être terminé. Il est déclenché uniquement lorsque le type de planification n'est pas défini surondemand. | Period | 
| maxActiveInstances | Nombre maximal d'instances actives simultanées d'un composant. Les réexécutions ne sont pas comptabilisées dans le nombre d'instances actives. | Entier | 
| maximumRetries | Nombre maximal de nouvelles tentatives en cas d'échec | Entier | 
| onFail | Action à exécuter en cas d'échec de l'objet actuel. | Objet de référence : "onFail":\$1"ref":"myActionId"\$1 | 
| onLateAction | Actions à déclencher si un objet n'a pas encore été planifié ou n'est toujours pas terminé. | Objet de référence :  "onLateAction":\$1"ref":"myActionId"\$1 | 
| onSuccess | Action à exécuter en cas de réussite de l'objet actuel. | Objet de référence : "onSuccess":\$1"ref":"myActionId"\$1 | 
| output | Nœud de données de sortie. L'emplacement de sortie peut être Amazon S3 ou Amazon Redshift. | Objet de référence :  "output":\$1"ref":"myDataNodeId"\$1 | 
| parent | Parent de l'objet actuel à partir duquel les emplacements sont hérités. | Objet de référence : "parent":\$1"ref":"myBaseObjectId"\$1 | 
| pipelineLogUri | L'URI S3 (tel que 's3 ://BucketName/Key/ ') pour le téléchargement des journaux pour le pipeline. | String | 
| precondition | Définit une condition préalable facultative. Un nœud de données n'est pas marqué « READY » tant que toutes les conditions préalables ne sont pas remplies. | Objet de référence : "precondition":\$1"ref":"myPreconditionId"\$1 | 
| file d’attente |  Correspond au `query_group ` paramètre d'Amazon Redshift, qui vous permet d'attribuer et de prioriser les activités simultanées en fonction de leur placement dans les files d'attente.  Amazon Redshift limite le nombre de connexions simultanées à 15. Pour plus d'informations, consultez la section [Affectation de requêtes à des files d'attente](https://docs.aws.amazon.com/AmazonRDS/latest/DeveloperGuide/cm-c-executing-queries.html) dans le manuel Amazon RDS *Database* Developer Guide.  | String | 
| reportProgressTimeout |  Délai pour les appels successifs de travail à distance adressés à `reportProgress`.  Si une valeur est définie, les activités à distance qui ne font pas état d'avancement pour la période spécifiée doivent être considérées comme bloquées et, par conséquent, retentées.  | Period | 
| retryDelay | Délai entre deux nouvelles tentatives. | Period | 
| scheduleType |  Permet de spécifier si la planification s'applique aux objets de votre pipeline. Les valeurs sont : `cron`, `ondemand` et `timeseries` (cron, à la demande et séries chronologiques). La planification `timeseries` signifie que les instances sont programmées à la fin de chaque intervalle. La planification `Cron` signifie que les instances sont programmées au début de chaque intervalle.  Une planification `ondemand` vous permet d'exécuter un pipeline une fois par activation. Cela signifie que vous n'avez pas à cloner ou à recréer le pipeline pour l'exécuter à nouveau.  Pour utiliser des pipelines `ondemand`, vous devez appeler l'opération `ActivatePipeline` pour chaque exécution suivante.  Si vous utilisez une planification `ondemand`, vous devez la spécifier dans l'objet par défaut et faire en sorte qu'elle soit le seul `scheduleType` spécifié pour les objets du pipeline.  | Énumération | 
| transformSql |  Expression `SQL SELECT` utilisée pour transformer les données d'entrée.  Exécutez l'expression `transformSql` sur la table nommée `staging`.  Lorsque vous copiez des données depuis DynamoDB ou Amazon S3 AWS Data Pipeline , vous créez une table appelée « staging » et y chargez initialement les données. Les données de cette table sont utilisées pour mettre à jour la table cible.  Le schéma de sortie de `transformSql` doit correspondre au schéma de la table cible finale. Si vous spécifiez l'option `transformSql`, une seconde table intermédiaire est créée à partir de l'instruction SQL spécifiée. Les données de cette seconde table intermédiaire sont ensuite mises à jour dans la table cible finale.  | String | 

 


****  

| Champs liés à l'exécution | Description | Type d'option | 
| --- | --- | --- | 
| @activeInstances | Liste des objets d'instances actives actuellement planifiés. | Objet de référence : "activeInstances":\$1"ref":"myRunnableObjectId"\$1 | 
| @actualEndTime | Heure à laquelle l'exécution de l'objet s'est terminée. | DateTime | 
| @actualStartTime | Heure à laquelle l'exécution de l'objet a démarré. | DateTime | 
| cancellationReason | Motif de l'annulation si l'objet a été annulé. | String | 
| @cascadeFailedOn | Description de la chaîne de dépendances sur laquelle l'objet a échoué. | Objet de référence :  "cascadeFailedOn":\$1"ref":"myRunnableObjectId"\$1 | 
| emrStepLog | Journaux d'étapes EMR disponibles uniquement sur les tentatives d'activité EMR | String | 
| errorId | ID de l'erreur si l'objet a échoué. | String | 
| errorMessage | errorMessage si l'objet a échoué. | String | 
| errorStackTrace | Suivi de la pile d'erreurs si l'objet a échoué. | String | 
| @finishedTime | Heure à laquelle l'objet a terminé son exécution. | DateTime | 
| hadoopJobLog | Journaux de travail Hadoop disponibles sur les tentatives pour les activités EMR. | String | 
| @healthStatus | État de santé de l'objet qui reflète la réussite ou l'échec de la dernière instance qui a atteint un état résilié. | String | 
| @healthStatusFromInstanceId | ID du dernier objet d'instance qui atteint un état résilié. | String | 
| @ healthStatusUpdated Heure | Heure à laquelle l'état de santé a été mis à jour pour la dernière fois. | DateTime | 
| hostname | Nom d'hôte du client qui a sélectionné la tentative de tâche. | String | 
| @lastDeactivatedTime | Heure à laquelle l'objet a été désactivé pour la dernière fois. | DateTime | 
| @ latestCompletedRun Heure | Heure de la dernière exécution pour laquelle l'exécution s'est terminée. | DateTime | 
| @latestRunTime | Heure de la dernière exécution pour laquelle l'exécution a été planifiée. | DateTime | 
| @nextRunTime | Prochaine heure d'exécution planifiée. | DateTime | 
| reportProgressTime | Heure la plus récente pour laquelle l'activité distante a signalé une progression. | DateTime | 
| @scheduledEndTime | Heure de fin planifiée pour l'objet. | DateTime | 
| @scheduledStartTime | Heure de début planifiée pour l'objet. | DateTime | 
| @État | État de l'objet. | String | 
| @Version | Version du pipeline avec laquelle l'objet été créé. | String | 
| @waitingOn | Description de la liste des dépendances sur laquelle l'objet est en attente. | Objet de référence :  "waitingOn":\$1"ref":"myRunnableObjectId"\$1 | 

 


****  

| Champs système | Description | Type d'option | 
| --- | --- | --- | 
| @error | Erreur décrivant l'objet mal formé. | String | 
| @pipelineId | Id du pipeline auquel l'objet appartient. | String | 
| @sphere | Sphère d'un objet. Indique sa situation dans le cycle de vie. Par exemple, les objets de composant produisent des objets d'instance qui exécutent des objets « tentatives ». | String | 

# ShellCommandActivity
<a name="dp-object-shellcommandactivity"></a>

 Exécute une commande ou un script. Vous pouvez utiliser `ShellCommandActivity` pour exécuter les tâches planifiées de type séries chronologiques ou de type cron. 

Lorsque le `stage` champ est défini sur true et utilisé avec un`S3DataNode`, `ShellCommandActivity` prend en charge le concept de données intermédiaires, ce qui signifie que vous pouvez déplacer des données d'Amazon S3 vers un emplacement d'étape, tel qu'Amazon EC2 ou votre environnement local, travailler sur les données à l'aide de scripts et les `ShellCommandActivity` replacer vers Amazon S3. 

Dans ce cas, lorsque votre commande shell est connectée à un `S3DataNode` en entrée, vos scripts shell opèrent directement sur les données avec `${INPUT1_STAGING_DIR}`, `${INPUT2_STAGING_DIR}` et d'autres champs, en faisant référence aux champs `ShellCommandActivity` en entrée. 

De même, le résultat de la commande shell peut être transféré dans un répertoire de sortie pour être automatiquement transféré vers Amazon S3, référencé par `${OUTPUT1_STAGING_DIR}``${OUTPUT2_STAGING_DIR}`, etc. 

Ces expressions peuvent être transmises comme arguments de ligne de commande à la commande shell pour que vous les utilisiez dans la logique de transformation des données.

`ShellCommandActivity` renvoie les chaînes et codes d'erreur Linux. Si une activité `ShellCommandActivity` se traduit par une erreur, la valeur `error` retournée est différente de zéro.

## Exemple
<a name="shellcommandactivity-example"></a>

Voici un exemple de ce type d'objet.

```
{
  "id" : "CreateDirectory",
  "type" : "ShellCommandActivity",
  "command" : "mkdir new-directory"
}
```

## Syntaxe
<a name="shellcommandactivity-syntax"></a>


****  

| Champs d'invocation de l'objet | Description | Type d'option | 
| --- | --- | --- | 
| schedule |  Cet objet est appelé dans le cadre de l'exécution d'un intervalle `schedule`. Pour définir l'ordre d'exécution des dépendances de cet objet, spécifiez une référence `schedule` à un autre objet.  Pour satisfaire cette exigence, définissez explicitement un `schedule` sur l'objet, par exemple, en spécifiant `"schedule": {"ref": "DefaultSchedule"}`.  Dans la plupart des cas, il est préférable de placer la référence `schedule` sur l'objet de pipeline par défaut de manière à ce que tous les objets héritent cette planification. Si le pipeline se compose d'une arborescence de planifications (planifications au sein de la planification maître), créez un objet parent ayant une référence de planification.  Pour répartir la charge, AWS Data Pipeline créez des objets physiques légèrement plus tôt que prévu, mais exécutez-les dans les délais prévus.  Pour plus d'informations sur les exemples de configurations de planification facultatives, consultez [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html).  | Objet de référence, par exemple « schedule » : \$1"ref » : » myScheduleId «\$1 | 

 


****  

| Groupe obligatoire (l'un des groupes suivants est obligatoire) | Description | Type d'option | 
| --- | --- | --- | 
| command | Commande à exécuter. Utilisez la valeur \$1 pour référencer les paramètres de positionnement et scriptArgument pour spécifier les paramètres de la commande. Cette valeur et les paramètres associés doivent fonctionner dans l'environnement à partir duquel vous lancez l'exécuteur de tâches. | String | 
| scriptUri | Chemin d'accès par URI Amazon S3 d'un fichier à télécharger et à exécuter en tant que commande shell. Spécifiez un seul scriptUri, ou champ command. Étant donné que le champ scriptUri ne peut pas utiliser de paramètres, utilisez plutôt command. | String | 

 


****  

| Groupe obligatoire (l'un des groupes suivants est obligatoire) | Description | Type d'option | 
| --- | --- | --- | 
| runsOn | La ressource de calcul permettant d'exécuter l'activité ou la commande, par exemple, une instance Amazon EC2 ou un cluster Amazon EMR. | Objet de référence, par exemple « RunSon » : \$1"ref » : » myResourceId «\$1 | 
| workerGroup | Utilisé pour les tâches d'acheminement. Si vous fournissez une valeur runsOn et que workerGroup existe, workerGroup est ignoré. | String | 

 


****  

| Champs facultatifs | Description | Type d'option | 
| --- | --- | --- | 
| attemptStatus | État de l'activité à distance le plus récemment rapporté. | String | 
| attemptTimeout | Délai d'achèvement de la tâche à distance. Si une valeur est définie, une activité à distance qui n'est pas exécutée dans la période de départ définie peut être retentée. | Period | 
| dependsOn | Spécifie une dépendance sur un autre objet exécutable. | Objet de référence, par exemple « DependsOn » : \$1"ref » : » myActivityId «\$1 | 
| failureAndRerunMode | Décrit le comportement du nœud de consommateurs lorsque les dépendances échouent ou sont à nouveau exécutées. | Énumération | 
| input | Emplacement des données d'entrée. | Objet de référence, par exemple « input » : \$1"ref » : » myDataNode Id "\$1 | 
| lateAfterTimeout | Temps écoulé après le début du pipeline pendant lequel l'objet doit être terminé. Il est déclenché uniquement lorsque le type de planification n'est pas défini surondemand. | Period | 
| maxActiveInstances | Nombre maximal d'instances actives simultanées d'un composant. Les réexécutions ne sont pas comptabilisées dans le nombre d'instances actives. | Entier | 
| maximumRetries | Nombre maximal de nouvelles tentatives en cas d'échec. | Entier | 
| onFail | Action à exécuter en cas d'échec de l'objet actuel. | Objet de référence, par exemple « onFail » : \$1"ref » : » myActionId «\$1 | 
| onLateAction | Actions à déclencher si un objet n'a pas encore été planifié ou n'est pas terminé. | Objet de référence, par exemple "onLateAction« : \$1" ref » : » myActionId «\$1 | 
| onSuccess | Action à exécuter en cas de réussite de l'objet actuel. | Objet de référence, par exemple « onSuccess » : \$1"ref » : » myActionId «\$1 | 
| output | Emplacement des données de sortie. | Objet de référence, par exemple « output » : \$1"ref » : » myDataNode Id "\$1 | 
| parent | Parent de l'objet actuel à partir duquel les emplacements sont hérités. | Objet de référence, par exemple « parent » : \$1"ref » : » myBaseObject Id "\$1 | 
| pipelineLogUri | L'URI Amazon S3, par exemple 's3://BucketName/Key/' pour le téléchargement des journaux pour le pipeline. | String | 
| precondition | Définit une condition préalable facultative. Un nœud de données n'est pas marqué « READY » tant que toutes les conditions préalables ne sont pas remplies. | Objet de référence, par exemple « précondition » : \$1"ref » : » myPreconditionId «\$1 | 
| reportProgressTimeout | Délai pour les appels successifs adressés à reportProgress par les activités à distance. Si une valeur est définie, les activités à distance qui ne font pas état d'avancement pour la période spécifiée doivent être considérées comme bloquées et font l'objet d'une nouvelle tentative. | Period | 
| retryDelay | Délai entre deux nouvelles tentatives. | Period | 
| scheduleType |  Permet de spécifier si les objets de votre définition de pipeline doivent être planifiés au début ou à la fin de l'intervalle.  Les valeurs sont : `cron`, `ondemand` et `timeseries`. Si la planification est définie sur `timeseries`, les instances sont programmées à la fin de chaque intervalle.  Si la planification est définie sur `Cron`, les instances sont programmées au début de chaque intervalle.  Si la planification est définie sur `ondemand`, vous pouvez exécuter un pipeline une fois, par activation. Cela signifie que vous n'avez pas à cloner ou à recréer le pipeline pour l'exécuter à nouveau. Si vous utilisez une planification `ondemand`, spécifiez-la dans l'objet par défaut comme seul `scheduleType` pour les objets du pipeline. Pour utiliser des pipelines `ondemand`, vous devez appeler l'opération `ActivatePipeline` pour chaque exécution suivante.   | Énumération | 
| scriptArgument | Tableau de chaînes au format JSON à transmettre à la commande spécifiée par le champ command. Par exemple, si la valeur du champ command est echo \$11 \$12, spécifiez scriptArgument en tant que "param1", "param2". En cas d'arguments et de paramètres multiples, transmettez le scriptArgument comme suit :  "scriptArgument":"arg1","scriptArgument":"param1","scriptArgument":"arg2","scriptArgument":"param2". Le scriptArgument ne peut être utilisé qu'avec command ; son utilisation avec scriptUri provoque une erreur. | String | 
| étape | Détermine si la gestion intermédiaire est activée et permet à vos commandes shell d'avoir accès aux variables de données mises en lots, telles que \$1\$1INPUT1\$1STAGING\$1DIR\$1 et  \$1\$1OUTPUT1\$1STAGING\$1DIR\$1. | Booléen | 
| stderr | Chemin qui reçoit les messages d'erreur système redirigés à partir de la commande. Si vous utilisez ce runsOn champ, il doit s'agir d'un chemin Amazon S3 en raison de la nature transitoire de la ressource exécutant votre activité. Toutefois, si vous spécifiez le champ workerGroup, un chemin de fichier local est autorisé. | String | 
| stdout | Le chemin Amazon S3 qui reçoit la sortie redirigée de la commande. Si vous utilisez ce runsOn champ, il doit s'agir d'un chemin Amazon S3 en raison de la nature transitoire de la ressource exécutant votre activité. Toutefois, si vous spécifiez le champ workerGroup, un chemin de fichier local est autorisé. | String | 

 


****  

| Champs liés à l'exécution | Description | Type d'option | 
| --- | --- | --- | 
| @activeInstances | Liste des objets d'instances actives actuellement planifiés. | Objet de référence, par exemple « ActiveInstances » : \$1"ref » : » myRunnableObject Id "\$1 | 
| @actualEndTime | Heure à laquelle l'exécution de l'objet s'est terminée. | DateTime | 
| @actualStartTime | Heure à laquelle l'exécution de l'objet a démarré. | DateTime | 
| cancellationReason | cancellationReason si l'objet a été annulé. | String | 
| @cascadeFailedOn | Description de la chaîne de dépendances à l'origine de l'échec de l'objet. | Objet de référence, par exemple "cascadeFailedOn« : \$1" ref » : » myRunnableObject Id "\$1 | 
| emrStepLog | Les journaux d'étapes Amazon EMR sont disponibles uniquement pour les tentatives d'activité Amazon EMR. | String | 
| errorId | errorId si l'objet a échoué. | String | 
| errorMessage | errorMessage si l'objet a échoué. | String | 
| errorStackTrace | Suivi de la pile d'erreurs si l'objet a échoué. | String | 
| @finishedTime | Heure à laquelle l'objet a terminé son exécution. | DateTime | 
| hadoopJobLog | Des journaux de tâches Hadoop sont disponibles en cas de tentative d'activités basées sur Amazon EMR. | String | 
| @healthStatus | État de santé de l'objet qui reflète la réussite ou l'échec de la dernière instance qui a atteint un état résilié. | String | 
| @healthStatusFromInstanceId | ID du dernier objet d'instance qui atteint un état résilié. | String | 
| @ healthStatusUpdated Heure | Heure à laquelle l'état de santé a été mis à jour pour la dernière fois. | DateTime | 
| hostname | Nom d'hôte du client qui a sélectionné la tentative de tâche. | String | 
| @lastDeactivatedTime | Heure à laquelle l'objet a été désactivé pour la dernière fois. | DateTime | 
| @ latestCompletedRun Heure | Heure de la dernière exécution pour laquelle l'exécution s'est terminée. | DateTime | 
| @latestRunTime | Heure de la dernière exécution pour laquelle l'exécution a été planifiée. | DateTime | 
| @nextRunTime | Prochaine heure d'exécution planifiée. | DateTime | 
| reportProgressTime | Heure la plus récente pour laquelle l'activité distante a signalé une progression. | DateTime | 
| @scheduledEndTime | Heure de fin planifiée pour l'objet. | DateTime | 
| @scheduledStartTime | Heure de début planifiée pour l'objet. | DateTime | 
| @État | Statut de l'objet. | String | 
| @Version |  AWS Data Pipeline Version utilisée pour créer l'objet. | String | 
| @waitingOn | Description de la liste des dépendances sur laquelle l'objet est en attente. | Objet de référence, par exemple « WaitingOn » : \$1"ref » : » myRunnableObject Id "\$1 | 

 


****  

| Champs système | Description | Type d'option | 
| --- | --- | --- | 
| @error | Erreur décrivant l'objet mal formé. | String | 
| @pipelineId | ID du pipeline auquel l'objet appartient. | String | 
| @sphere | Emplacement d'un objet dans le cycle de vie. Les objets de composant entraînent des objets d'instance, qui exécutent des objets « tentatives ». | String | 

## Voir aussi
<a name="shellcommandactivity-seealso"></a>
+ [CopyActivity](dp-object-copyactivity.md)
+ [EmrActivity](dp-object-emractivity.md)

# SqlActivity
<a name="dp-object-sqlactivity"></a>

Exécute une requête SQL (script) sur une base de données.

## Exemple
<a name="sqlactivity-example"></a>

Voici un exemple de ce type d'objet.

```
{
  "id" : "MySqlActivity",
  "type" : "SqlActivity",
  "database" : { "ref": "MyDatabaseID" },
  "script" : "SQLQuery" | "scriptUri" : s3://scriptBucket/query.sql,
  "schedule" : { "ref": "MyScheduleID" },
}
```

## Syntaxe
<a name="sqlactivity-syntax"></a>


****  

| Champs obligatoires | Description | Type d'option | 
| --- | --- | --- | 
| database | Base de données sur laquelle exécuter le script SQL fourni. | Objet de référence, par exemple « base de données » : \$1"ref » : » myDatabaseId «\$1 | 

 


****  

| Champs d'invocation de l'objet | Description | Type d'option | 
| --- | --- | --- | 
| schedule |  Cet objet est appelé dans le cadre de l'exécution d'un intervalle de planification. Vous devez spécifier une référence de planification à un autre objet pour définir l'ordre d'exécution des dépendances de l'objet. Vous pouvez définir explicitement une planification sur l'objet, par exemple, en spécifiant `"schedule": {"ref": "DefaultSchedule"}`.  Dans la plupart des cas, il est préférable de placer la planification de référence sur l'objet de pipeline par défaut de manière à ce que tous les objets héritent cette planification.  Si le pipeline dispose d'une arborescence de planifications imbriquées dans la planification maître, créez un objet parent ayant une référence de planification. Pour plus d'informations sur les exemples de configurations de planification facultatives, consultez [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html).  | Objet de référence, par exemple « schedule » : \$1"ref » : » myScheduleId «\$1 | 

 


****  

| Groupe obligatoire (l'un des groupes suivants est obligatoire) | Description | Type d'option | 
| --- | --- | --- | 
| script | Script SQL à exécuter. Vous devez spécifier script ou scriptUri. Lorsque le script est stocké dans Amazon S3, le script n'est pas évalué en tant qu'expression. Spécifier plusieurs valeurs pour scriptArgument est utile lorsque le script est stocké dans Amazon S3. | String | 
| scriptUri | URI spécifiant l'emplacement d'un script SQL à exécuter dans l'activité. | String | 

 


****  

| Groupe obligatoire (l'un des groupes suivants est obligatoire) | Description | Type d'option | 
| --- | --- | --- | 
| runsOn | Ressource de calcul pour exécuter l'activité ou la commande. Par exemple, une instance Amazon EC2 ou un cluster Amazon EMR. | Objet de référence, par exemple « RunSon » : \$1"ref » : » myResourceId «\$1 | 
| workerGroup | Groupe de travail. Utilisé pour les tâches d'acheminement. Si vous fournissez une valeur runsOn et que workerGroup existe, workerGroup est ignoré. | String | 

 


****  

| Champs facultatifs | Description | Type d'option | 
| --- | --- | --- | 
| attemptStatus | État de l'activité à distance le plus récemment rapporté. | String | 
| attemptTimeout | Délai d'achèvement de la tâche à distance. Si une valeur est définie, une activité à distance qui n'est pas exécutée dans le cadre de la période de départ définie peut être retentée. | Period | 
| dependsOn | Spécifie une dépendance sur un autre objet exécutable. | Objet de référence, par exemple « DependsOn » : \$1"ref » : » myActivityId «\$1 | 
| failureAndRerunMode | Décrit le comportement du nœud de consommateurs lorsque les dépendances échouent ou sont à nouveau exécutées. | Énumération | 
| input | Emplacement des données d'entrée. | Objet de référence, par exemple « input » : \$1"ref » : » myDataNode Id "\$1 | 
| lateAfterTimeout | Période depuis le début planifié du pipeline au sein de laquelle l'objet exécuté doit démarrer. | Period | 
| maxActiveInstances | Nombre maximal d'instances actives simultanées d'un composant. Les réexécutions ne sont pas comptabilisées dans le nombre d'instances actives. | Entier | 
| maximumRetries | Nombre maximal de nouvelles tentatives en cas d'échec | Entier | 
| onFail | Action à exécuter en cas d'échec de l'objet actuel. | Objet de référence, par exemple « onFail » : \$1"ref » : » myActionId «\$1 | 
| onLateAction | Actions qui doivent être déclenchées si un objet n'a pas encore été planifié ou n'est toujours pas terminé au cours de la période écoulée depuis le début prévu du pipeline, comme spécifié par « lateAfterTimeout ». | Objet de référence, par exemple "onLateAction« : \$1" ref » : » myActionId «\$1 | 
| onSuccess | Action à exécuter en cas de réussite de l'objet actuel. | Objet de référence, par exemple « onSuccess » : \$1"ref » : » myActionId «\$1 | 
| output | Emplacement des données de sortie. Cela n'est utile que pour le référencement depuis un script (par exemple\$1\$1output.tablename\$1) et pour créer la table de sortie en définissant « createTableSql » dans le nœud de données de sortie. La sortie de la requête SQL n'est pas écrite dans le nœud des données de sortie. | Objet de référence, par exemple « output » : \$1"ref » : » myDataNode Id "\$1 | 
| parent | Parent de l'objet actuel à partir duquel les emplacements sont hérités. | Objet de référence, par exemple « parent » : \$1"ref » : » myBaseObject Id "\$1 | 
| pipelineLogUri | L'URI S3 (tel que 's3 ://BucketName/Key/ ') pour le téléchargement des journaux pour le pipeline. | String | 
| precondition | Définit une condition préalable facultative. Un nœud de données n'est pas marqué « READY » tant que toutes les conditions préalables ne sont pas remplies. | Objet de référence, par exemple « précondition » : \$1"ref » : » myPreconditionId «\$1 | 
| file d’attente | [Amazon Redshift uniquement] Correspond au paramètre query\$1group d'Amazon Redshift, qui vous permet d'attribuer et de hiérarchiser les activités simultanées en fonction de leur placement dans les files d'attente. Amazon Redshift limite le nombre de connexions simultanées à 15. Pour plus d'informations, consultez [Attribution de requêtes aux files d'attente](https://docs.aws.amazon.com/redshift/latest/dg/cm-c-executing-queries.html) dans le manuel Amazon Redshift Developer Guide. | String | 
| reportProgressTimeout | Délai pour les appels successifs de travail à distance adressés à reportProgress. Si une valeur est définie, les activités à distance qui ne font pas état d'avancement pour la période spécifiée doivent être considérées comme bloquées et, par conséquent, retentées. | Period | 
| retryDelay | Délai entre deux nouvelles tentatives. | Period | 
| scheduleType |  Le type de planification vous permet de spécifier si les objets de votre définition de pipeline doivent être planifiés au début ou à la fin de l'intervalle. Les valeurs sont : `cron`, `ondemand` et `timeseries` (cron, à la demande et séries chronologiques).  Une planification `timeseries` signifie que les instances sont programmées à la fin de chaque intervalle. Une planification `cron` signifie que les instances sont programmées au début de chaque intervalle.  Une planification `ondemand` vous permet d'exécuter un pipeline une fois par activation. Cela signifie que vous n'avez pas à cloner ou à recréer le pipeline pour l'exécuter à nouveau. Si vous utilisez une planification `ondemand`, elle doit être spécifiée dans l'objet par défaut et être le seul `scheduleType` spécifié pour les objets du pipeline. Pour utiliser des pipelines `ondemand`, vous devez appeler l'opération `ActivatePipeline` pour chaque exécution suivante.  | Énumération | 
| scriptArgument | Liste de variables pour le script. Vous pouvez également placer directement des expressions dans le champ script. Spécifier plusieurs valeurs pour scriptArgument est utile lorsque le script est stocké dans Amazon S3. Exemple : \$1 \$1format (@scheduledStartTime, "YY-MM-DD HH:MM:SS"\$1\$1n\$1 \$1format (PlusPeriod (@scheduledStartTime, « 1 jour »), « HH:MM:SS"\$1 YY-MM-DD  | String | 

 


****  

| Champs liés à l'exécution | Description | Type d'option | 
| --- | --- | --- | 
| @activeInstances | Liste des objets d'instances actives actuellement planifiés. | Objet de référence, par exemple « ActiveInstances » : \$1"ref » : » myRunnableObject Id "\$1 | 
| @actualEndTime | Heure à laquelle l'exécution de l'objet s'est terminée. | DateTime | 
| @actualStartTime | Heure à laquelle l'exécution de l'objet a démarré. | DateTime | 
| cancellationReason | Motif de l'annulation si l'objet a été annulé. | String | 
| @cascadeFailedOn | Description de la chaîne de dépendances sur laquelle l'objet a échoué. | Objet de référence, par exemple "cascadeFailedOn« : \$1" ref » : » myRunnableObject Id "\$1 | 
| emrStepLog | Journaux d'étapes EMR disponibles uniquement sur les tentatives d'activité EMR | String | 
| errorId | ID de l'erreur si l'objet a échoué. | String | 
| errorMessage | errorMessage si l'objet a échoué. | String | 
| errorStackTrace | Suivi de la pile d'erreurs si l'objet a échoué. | String | 
| @finishedTime | Heure à laquelle l'objet a terminé son exécution. | DateTime | 
| hadoopJobLog | Journaux de travail Hadoop disponibles sur les tentatives pour les activités EMR. | String | 
| @healthStatus | État de santé de l'objet qui reflète la réussite ou l'échec de la dernière instance qui a atteint un état résilié. | String | 
| @healthStatusFromInstanceId | ID du dernier objet d'instance qui atteint un état résilié. | String | 
| @ healthStatusUpdated Heure | Heure à laquelle l'état de santé a été mis à jour pour la dernière fois. | DateTime | 
| hostname | Nom d'hôte du client qui a sélectionné la tentative de tâche. | String | 
| @lastDeactivatedTime | Heure à laquelle l'objet a été désactivé pour la dernière fois. | DateTime | 
| @ latestCompletedRun Heure | Heure de la dernière exécution pour laquelle l'exécution s'est terminée. | DateTime | 
| @latestRunTime | Heure de la dernière exécution pour laquelle l'exécution a été planifiée. | DateTime | 
| @nextRunTime | Prochaine heure d'exécution planifiée. | DateTime | 
| reportProgressTime | Heure la plus récente pour laquelle l'activité distante a signalé une progression. | DateTime | 
| @scheduledEndTime | Heure de fin planifiée pour l'objet. | DateTime | 
| @scheduledStartTime | Heure de début planifiée pour l'objet. | DateTime | 
| @État | État de l'objet. | String | 
| @Version | Version du pipeline avec laquelle l'objet été créé. | String | 
| @waitingOn | Description de la liste des dépendances sur laquelle l'objet est en attente. | Objet de référence, par exemple « WaitingOn » : \$1"ref » : » myRunnableObject Id "\$1 | 

 


****  

| Champs système | Description | Type d'option | 
| --- | --- | --- | 
| @error | Erreur décrivant l'objet mal formé. | String | 
| @pipelineId | Id du pipeline auquel l'objet appartient. | String | 
| @sphere | La sphère d'un objet désigne sa place dans le cycle de vie : les objets « composant » entraînent les objets « instance » qui exécutent les objets « tentative ». | String | 

# Ressources
<a name="dp-object-resources"></a>

Les objets de AWS Data Pipeline ressource sont les suivants :

**Topics**
+ [Ec2Resource](dp-object-ec2resource.md)
+ [EmrCluster](dp-object-emrcluster.md)
+ [HttpProxy](dp-object-httpproxy.md)

# Ec2Resource
<a name="dp-object-ec2resource"></a>

Instance Amazon EC2 qui exécute le travail défini par une activité de pipeline.

AWS Data Pipeline prend désormais en charge IMDSv2 pour l'instance Amazon EC2, qui utilise une méthode orientée session pour mieux gérer l'authentification lors de la récupération des informations de métadonnées à partir des instances. Une session commence et termine une série de demandes utilisées par le logiciel exécuté sur une instance Amazon EC2 pour accéder aux métadonnées et aux informations d'identification de l'instance Amazon EC2 stockées localement. Le logiciel démarre une session par une simple requête HTTP PUT adressée à IMDSv2. IMDSv2 renvoie un jeton secret au logiciel exécuté sur l'instance Amazon EC2, qui utilisera le jeton comme mot de passe pour effectuer des demandes de métadonnées et d'informations IMDSv2 d'identification.

**Note**  
Pour utiliser IMDSv2 pour votre instance Amazon EC2, vous devez modifier les paramètres, car l'AMI par défaut n'est pas compatible avec. IMDSv2 Vous pouvez spécifier une nouvelle version d'AMI que vous pouvez récupérer via le paramètre SSM suivant :`/aws/service/ami-amazon-linux-latest/amzn-ami-hvm-x86_64-ebs`.

Pour plus d'informations sur les instances Amazon EC2 par défaut AWS Data Pipeline créées si vous ne spécifiez aucune instance, consultez. [Instances Amazon EC2 par défaut par région AWS](dp-ec2-default-instance-types.md)

## Exemples
<a name="ec2resource-example"></a>

**EC2-Classic**

**Important**  
Seuls AWS les comptes créés avant le 4 décembre 2013 sont compatibles avec la plateforme EC2-Classic. Si vous possédez l'un de ces comptes, vous pouvez avoir la possibilité de créer des objets EC2Resource pour un pipeline dans un réseau EC2-Classic plutôt qu'un VPC. Nous vous recommandons vivement de créer des ressources pour tous vos pipelines dans des VPC. En outre, si vous disposez de ressources existantes dans EC2-Classic, nous vous recommandons de les migrer vers un VPC.

L'exemple d'objet suivant lance une instance EC2 dans EC2-Classic, avec certains champs facultatifs définis.

```
{
  "id" : "MyEC2Resource",
  "type" : "Ec2Resource",
  "actionOnTaskFailure" : "terminate",
  "actionOnResourceFailure" : "retryAll",
  "maximumRetries" : "1",
  "instanceType" : "m5.large",
  "securityGroups" : [
    "test-group",
    "default"
  ],
  "keyPair" : "my-key-pair"
}
```

**EC2-VPC**

L'exemple d'objet suivant objet lance une instance EC2 dans un VPC personnalisé, avec quelques champs facultatifs.

```
{
  "id" : "MyEC2Resource",
  "type" : "Ec2Resource",
  "actionOnTaskFailure" : "terminate",
  "actionOnResourceFailure" : "retryAll",
  "maximumRetries" : "1",
  "instanceType" : "m5.large",
  "securityGroupIds" : [
    "sg-12345678",
    "sg-12345678"
  ],
  "subnetId": "subnet-12345678",
  "associatePublicIpAddress": "true",
  "keyPair" : "my-key-pair"
}
```

## Syntaxe
<a name="ec2resource-syntax"></a>


****  

| Champs obligatoires | Description | Type d'option | 
| --- | --- | --- | 
| resourceRole | Rôle IAM qui contrôle les ressources auxquelles l'instance Amazon EC2 peut accéder. | String | 
| rôle | Rôle IAM AWS Data Pipeline utilisé pour créer l'instance EC2. | String | 

 


****  

| Champs d'invocation de l'objet | Description | Type d'option | 
| --- | --- | --- | 
| schedule |  Cet objet est appelé dans le cadre de l'exécution d'un intervalle de planification.  Pour définir l'ordre d'exécution des dépendances de cet objet, spécifiez une référence de planification à un autre objet. Vous pouvez effectuer cette opération de différentes manières : [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/fr_fr/datapipeline/latest/DeveloperGuide/dp-object-ec2resource.html)  | Objet de référence, par exemple, "schedule":\$1"ref":"myScheduleId"\$1 | 

 


****  

| Champs facultatifs | Description | Type d'option | 
| --- | --- | --- | 
| actionOnResourceDéfaillance | Action effectuée après une défaillance de ressource pour cette ressource. Les valeurs valides sont "retryall" et "retrynone". | String | 
| actionOnTaskDéfaillance | Action effectuée après l'échec d'une tâche pour cette ressource. Les valeurs valides sont "continue" ou "terminate". | String | 
| associatePublicIpAdresse | Indique si vous souhaitez attribuer une adresse IP publique à l'instance. Si l'instance se trouve dans Amazon EC2 ou Amazon VPC, la valeur par défaut est. true Sinon, la valeur par défaut est false. | Booléen | 
| attemptStatus | État de l'activité à distance le plus récemment rapporté. | String | 
| attemptTimeout | Délai d'achèvement de la tâche à distance. Si une valeur est définie, une activité à distance qui n'est pas exécutée dans la période de départ définie peut être retentée. | Period | 
| availabilityZone | Zone de disponibilité dans laquelle lancer l'instance Amazon EC2. | String | 
| désactiver IMDSv1 | La valeur par défaut est false et active à la fois IMDSv1 et IMDSv2. Si vous le définissez sur true, il est désactivé IMDSv1 et fournit uniquement IMDSv2s | Booléen | 
| failureAndRerunMode | Décrit le comportement du nœud de consommateurs lorsque les dépendances échouent ou sont à nouveau exécutées. | Énumération | 
| httpProxy | L'hôte proxy que les clients utilisent pour se connecter aux AWS services. | Objet de référence, par exemple,  "httpProxy":\$1"ref":"myHttpProxyId"\$1 | 
| imageId | ID de l'AMI à utiliser pour l'instance. AWS Data Pipeline Utilise par défaut le type de virtualisation AMI HVM. Les AMI spécifiques IDs utilisées sont basées sur une région. Vous pouvez remplacer l'AMI par défaut en spécifiant l'AMI HVM de votre choix. Pour plus d'informations sur les types d'AMI, consultez les [sections Types de virtualisation d'AMI Linux](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/virtualization_types.html) et [Trouver une AMI Linux](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/finding-an-ami.html) dans le guide de l'*utilisateur Amazon EC2*.  | String | 
| initTimeout | Délai d'attente pour le démarrage de la ressource.  | Period | 
| instanceCount | Obsolète. | Entier | 
| instanceType | Type d'instance Amazon EC2 à démarrer. | String | 
| keyPair | Nom de la paire de clés. Si vous lancez une instance Amazon EC2 sans spécifier de paire de clés, vous ne pouvez pas vous y connecter. | String | 
| lateAfterTimeout | Temps écoulé après le début du pipeline pendant lequel l'objet doit être terminé. Il est déclenché uniquement lorsque le type de planification n'est pas défini surondemand. | Period | 
| maxActiveInstances | Nombre maximal d'instances actives simultanées d'un composant. Les réexécutions ne sont pas comptabilisées dans le nombre d'instances actives. | Entier | 
| maximumRetries | Nombre maximal de nouvelles tentatives en cas d'échec. | Entier | 
| minInstanceCount | Obsolète. | Entier | 
| onFail | Action à exécuter en cas d'échec de l'objet actuel. | Objet de référence, par exemple,  "onFail":\$1"ref":"myActionId"\$1 | 
| onLateAction | Actions à déclencher si un objet n'a pas encore été planifié ou est toujours en cours d'exécution. | Objet de référence, par exemple, "onLateAction":\$1"ref":"myActionId"\$1 | 
| onSuccess | Action à exécuter en cas de réussite de l'objet actuel. | Objet de référence, par exemple,  "onSuccess":\$1"ref":"myActionId"\$1 | 
| parent | Parent de l'objet actuel à partir duquel les emplacements sont hérités. | Objet de référence, par exemple,  "parent":\$1"ref":"myBaseObjectId"\$1 | 
| pipelineLogUri | L'URI Amazon S3 (par exemple's3://BucketName/Key/') pour le téléchargement des journaux pour le pipeline. | String | 
| region |  Code de la région dans laquelle l'instance Amazon EC2 doit s'exécuter. Par défaut, l'instance s'exécute dans la même région que le pipeline. Vous pouvez exécuter l'instance dans la même région qu'un ensemble de données dépendantes. | Énumération | 
| reportProgressTimeout | Délai pour les appels successifs de travail à distance adressés à reportProgress. Si une valeur est définie, les activités à distance qui ne font pas état d'avancement pour la période spécifiée doivent être considérées comme bloquées et feront l'objet d'une nouvelle tentative. | Period | 
| retryDelay | Délai entre deux nouvelles tentatives. | Period | 
| runAsUser | L'utilisateur qui doit exécuter le TaskRunner. | String | 
| runsOn | Ce champ n'est pas autorisé sur cet objet. | Objet de référence, par exemple, "runsOn":\$1"ref":"myResourceId"\$1 | 
| scheduleType |  Le type de planification vous permet de spécifier si les objets de votre définition de pipeline doivent être planifiés au début ou à la fin d'un intervalle, ou à la demande. Les valeurs sont les suivantes : [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/fr_fr/datapipeline/latest/DeveloperGuide/dp-object-ec2resource.html)  | Énumération | 
| securityGroupIds | Les identifiants d'un ou de plusieurs groupes de sécurité Amazon EC2 à utiliser pour les instances du pool de ressources. | String | 
| securityGroups | Un ou plusieurs groupes de sécurité Amazon EC2 à utiliser pour les instances du pool de ressources. | String | 
| spotBidPrice | Montant maximum par heure pour votre instance Spot en dollars, qui est une valeur décimale comprise entre 0 et 20,00 (non incluse). | String | 
| subnetId | ID du sous-réseau Amazon EC2 dans lequel démarrer l'instance. | String | 
| terminateAfter | Nombre d'heures après lequel résilier la ressource. | Period | 
| useOnDemandOnLastAttempt | Lors de la dernière tentative de demande d'une instance Spot, effectuez une demande pour les instances à la demande au lieu d'une instance Spot. Cela garantit que si toutes les tentatives précédentes ont échoué, la dernière tentative n'est pas interrompue. | Booléen | 
| workerGroup | Ce champ n'est pas autorisé sur cet objet. | String | 

 


****  

| Champs liés à l'exécution | Description | Type d'option | 
| --- | --- | --- | 
| @activeInstances | Liste des objets d'instances actives actuellement planifiés. | Objet de référence, par exemple, "activeInstances":\$1"ref":"myRunnableObjectId"\$1 | 
| @actualEndTime | Heure à laquelle l'exécution de l'objet s'est terminée. | DateTime | 
| @actualStartTime | Heure à laquelle l'exécution de l'objet a démarré. | DateTime | 
| cancellationReason | cancellationReason si l'objet a été annulé. | String | 
| @cascadeFailedOn | Description de la chaîne de dépendances sur laquelle l'objet a échoué. | Objet de référence, par exemple, "cascadeFailedOn":\$1"ref":"myRunnableObjectId"\$1 | 
| emrStepLog | Les journaux d'étapes ne sont disponibles que pour les tentatives d'activité Amazon EMR. | String | 
| errorId | ID de l'erreur si l'objet a échoué. | String | 
| errorMessage | Message d'erreur si l'objet a échoué. | String | 
| errorStackTrace | Suivi de la pile d'erreurs si l'objet a échoué. | String | 
| @failureReason | Raison de l'échec de la ressource. | String | 
| @finishedTime | Heure à laquelle l'objet a terminé son exécution. | DateTime | 
| hadoopJobLog | Des journaux de tâches Hadoop sont disponibles en cas de tentative d'activité sur Amazon EMR. | String | 
| @healthStatus | État de santé de l'objet qui reflète la réussite ou l'échec de la dernière instance qui a atteint un état résilié. | String | 
| @healthStatusFromInstanceId | ID du dernier objet d'instance qui atteint un état résilié. | String | 
| @ healthStatusUpdated Heure | Heure à laquelle l'état de santé a été mis à jour pour la dernière fois. | DateTime | 
| hostname | Nom d'hôte du client qui a sélectionné la tentative de tâche. | String | 
| @lastDeactivatedTime | Heure à laquelle l'objet a été désactivé pour la dernière fois. | DateTime | 
| @ latestCompletedRun Heure | Heure de la dernière exécution pour laquelle l'exécution s'est terminée. | DateTime | 
| @latestRunTime | Heure de la dernière exécution pour laquelle l'exécution a été planifiée. | DateTime | 
| @nextRunTime | Prochaine heure d'exécution planifiée. | DateTime | 
| reportProgressTime | Heure la plus récente pour laquelle l'activité distante a signalé une progression. | DateTime | 
| @scheduledEndTime | Heure de fin planifiée pour l'objet. | DateTime | 
| @scheduledStartTime | Heure de début planifiée pour l'objet. | DateTime | 
| @État | État de l'objet. | String | 
| @Version | Version du pipeline avec laquelle l'objet été créé. | String | 
| @waitingOn | Description de la liste des dépendances sur laquelle l'objet est en attente. | Objet de référence, par exemple,  "waitingOn":\$1"ref":"myRunnableObjectId"\$1 | 

 


****  

| Champs système | Description | Type d'option | 
| --- | --- | --- | 
| @error | Erreur décrivant l'objet mal formé. | String | 
| @pipelineId | ID du pipeline auquel l'objet appartient. | String | 
| @sphere | Emplacement d'un objet dans le cycle de vie. Les objets de composant entraînent des objets d'instance, qui exécutent des objets « tentatives ». | String | 

# EmrCluster
<a name="dp-object-emrcluster"></a>

Représente la configuration d'un cluster Amazon EMR. Cet objet est utilisé par [EmrActivity](dp-object-emractivity.md) et [HadoopActivity](dp-object-hadoopactivity.md) pour lancer un cluster.

**Topics**
+ [Schedulers](#emrcluster-schedulers)
+ [Versions publiées par Amazon EMR](#dp-emrcluster-release-versions)
+ [Autorisations Amazon EMR](#w2aac52c17b9c11)
+ [Syntaxe](#emrcluster-syntax)
+ [Exemples](emrcluster-example.md)
+ [Voir aussi](#emrcluster-seealso)

## Schedulers
<a name="emrcluster-schedulers"></a>

Les planificateurs fournissent un moyen de spécifier l'allocation des ressources et de définir les priorités de travail au sein d'un cluster Hadoop. Les administrateurs ou les utilisateurs peuvent choisir un planificateur pour différentes classes d'utilisateurs et d'applications. Un planificateur peut utiliser les files d'attente pour allouer des ressources aux utilisateurs et aux applications. Vous configurez ces files d'attente lorsque vous créez le cluster. Vous pouvez ensuite configurer la priorité de certains types de travail et d'utilisateur par rapport à d'autres. Vous bénéficiez ainsi d'une utilisation efficace des ressources du cluster, tout en permettant à plus d'un utilisateur de soumettre des tâches au cluster. Il existe trois types de planificateur disponibles :
+ [FairScheduler](https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/FairScheduler.html)— Tente de planifier les ressources de manière uniforme sur une longue période.
+ [CapacityScheduler](https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/CapacityScheduler.html)— Utilise des files d'attente pour permettre aux administrateurs de clusters d'affecter les utilisateurs à des files d'attente dont la priorité et l'allocation des ressources varient. 
+ Par défaut : utilisé par le cluster, ce qui peut être configuré par votre site.

## Versions publiées par Amazon EMR
<a name="dp-emrcluster-release-versions"></a>

Une version Amazon EMR est un ensemble d'applications open-source issues de l'écosystème big data. Chaque version comprend différentes applications, composants et fonctionnalités Big Data que vous sélectionnez pour qu'Amazon EMR installe et configure lorsque vous créez un cluster. Vous spécifiez la version à l'aide de l'étiquette de version. Les étiquettes de version sont sous la forme `emr-x.x.x`. Par exemple, `emr-5.30.0`. Les clusters Amazon EMR se basent sur l'étiquette de version `emr-4.0.0` et utilisent ultérieurement cette `releaseLabel` propriété pour spécifier l'étiquette de version d'un `EmrCluster` objet. Les versions antérieures utilisent la propriété `amiVersion`.

**Important**  
Tous les clusters Amazon EMR créés à l'aide de la version 5.22.0 ou ultérieure utilisent [Signature version 4 pour authentifier les demandes adressées](https://docs.aws.amazon.com/general/latest/gr/signature-version-4.html) à Amazon S3. Certaines versions antérieures utilisent Signature Version 2. La prise en charge de Signature Version 2 est interrompue. Pour de plus amples informations, veuillez consulter [Mise à jour Amazon S3 — Période d'obsolescence SigV2 étendue et modifiée](https://aws.amazon.com/blogs/aws/amazon-s3-update-sigv2-deprecation-period-extended-modified/). Nous vous recommandons vivement d'utiliser une version d'Amazon EMR compatible avec Signature Version 4. Pour les versions antérieures, à commencer par EMR 4.7.x, la version la plus récente de la série a été mise à jour pour prendre en charge Signature Version 4. Lorsque vous utilisez une version EMR antérieure, nous vous recommandons d'utiliser la dernière version de la série. En outre, évitez les versions antérieures à EMR 4.7.0.

### Considérations et restrictions
<a name="dp-emrcluster-considerations"></a>

#### Utilisez la dernière version de Task Runner
<a name="dp-task-runner-latest"></a>

Si vous utilisez un `EmrCluster` objet autogéré doté d'une étiquette de version, utilisez le dernier Task Runner. Pour plus d'informations sur Task Runner, consultez [Travailler avec Task Runner](dp-using-task-runner.md). Vous pouvez configurer les valeurs des propriétés pour toutes les classifications de configuration Amazon EMR. Pour plus d'informations, consultez la [section Configuration des applications](https://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide/emr-configure-apps.html) dans le *guide de mise à jour d'Amazon EMR*[EmrConfiguration](dp-object-emrconfiguration.md), le et les références aux [Propriété](dp-object-property.md) objets. 

#### Support pour IMDSv2
<a name="dp-emr-imdsv2-support"></a>

Auparavant, uniquement AWS Data Pipeline pris en charge IMDSv1. Désormais AWS Data Pipeline compatible avec IMDSv2 Amazon EMR 5.23.1, 5.27.1 et 5.32 ou version ultérieure, et Amazon EMR 6.2 ou version ultérieure. IMDSv2 utilise une méthode axée sur les sessions pour mieux gérer l'authentification lors de la récupération d'informations de métadonnées à partir d'instances. Vous devez configurer vos instances pour qu'elles passent des IMDSv2 appels en créant des ressources gérées par les utilisateurs à l'aide de TaskRunner -2.0.

#### Amazon EMR 5.32 ou version ultérieure et Amazon EMR 6.x
<a name="dp-emr-6-classpath"></a>

Les séries Amazon EMR 5.32 ou versions ultérieures et 6.x utilisent la version 3.x de Hadoop, qui a apporté des modifications majeures à la façon dont le chemin de classe de Hadoop est évalué par rapport à la version 2.x de Hadoop. Les bibliothèques courantes telles que Joda-Time ont été supprimées du classpath.

Si [EmrActivity](dp-object-emractivity.md) ou [HadoopActivity](dp-object-hadoopactivity.md) exécute un fichier Jar qui dépend d'une bibliothèque supprimée dans Hadoop 3.x, l'étape échoue avec l'erreur ou. `java.lang.NoClassDefFoundError` `java.lang.ClassNotFoundException` Cela peut se produire pour les fichiers Jar qui s'exécutent sans problème avec les versions 5.x d'Amazon EMR.

Pour résoudre le problème, vous devez copier les dépendances du fichier Jar dans le chemin de classe Hadoop d'un `EmrCluster` objet avant de démarrer le ou le. `EmrActivity` `HadoopActivity` Pour ce faire, nous fournissons un script bash. Le script bash est disponible à l'emplacement suivant, où se *MyRegion* trouve la AWS région dans laquelle votre `EmrCluster` objet s'exécute, par exemple`us-west-2`.

```
s3://datapipeline-MyRegion/MyRegion/bootstrap-actions/latest/TaskRunner/copy-jars-to-hadoop-classpath.sh
```

Le mode d'exécution du script varie selon qu'`EmrActivity`il `HadoopActivity` s'exécute sur une ressource gérée par AWS Data Pipeline ou sur une ressource autogérée.

Si vous utilisez une ressource gérée par AWS Data Pipeline, ajoutez un `bootstrapAction` à l'`EmrCluster`objet. `bootstrapAction`Spécifie le script et les fichiers Jar à copier en tant qu'arguments. Vous pouvez ajouter jusqu'à 255 `bootstrapAction` champs par `EmrCluster` objet, et vous pouvez ajouter un `bootstrapAction` champ à un `EmrCluster` objet qui possède déjà des actions d'amorçage.

Pour spécifier ce script en tant qu'action d'amorçage, utilisez la syntaxe suivante : où se `JarFileRegion` trouve la région dans laquelle le fichier Jar est enregistré, et chacune *MyJarFile*n** est le chemin absolu dans Amazon S3 d'un fichier Jar à copier dans le classpath Hadoop. Ne spécifiez pas les fichiers Jar qui se trouvent dans le chemin de classe Hadoop par défaut.

```
s3://datapipeline-MyRegion/MyRegion/bootstrap-actions/latest/TaskRunner/copy-jars-to-hadoop-classpath.sh,JarFileRegion,MyJarFile1,MyJarFile2[, ...]
```

L'exemple suivant spécifie une action bootstrap qui copie deux fichiers Jar dans Amazon S3 : `my-jar-file.jar` et le`emr-dynamodb-tool-4.14.0-jar-with-dependencies.jar`. La région utilisée dans cet exemple est us-west-2.

```
{
  "id" : "MyEmrCluster",
  "type" : "EmrCluster",
  "keyPair" : "my-key-pair",
  "masterInstanceType" : "m5.xlarge",
  "coreInstanceType" : "m5.xlarge",
  "coreInstanceCount" : "2",
  "taskInstanceType" : "m5.xlarge",
  "taskInstanceCount": "2",
  "bootstrapAction" : ["s3://datapipeline-us-west-2/us-west-2/bootstrap-actions/latest/TaskRunner/copy-jars-to-hadoop-classpath.sh,us-west-2,s3://path/to/my-jar-file.jar,s3://dynamodb-dpl-us-west-2/emr-ddb-storage-handler/4.14.0/emr-dynamodb-tools-4.14.0-jar-with-dependencies.jar"]
}
```

Vous devez enregistrer et activer le pipeline pour que la modification apportée `bootstrapAction` au nouveau soit prise en compte.

Si vous utilisez une ressource autogérée, vous pouvez télécharger le script sur l'instance de cluster et l'exécuter depuis la ligne de commande à l'aide de SSH. Le script crée un répertoire nommé `/etc/hadoop/conf/shellprofile.d` et un fichier nommé `datapipeline-jars.sh` dans ce répertoire. Les fichiers jar fournis en tant qu'arguments de ligne de commande sont copiés dans un répertoire nommé créé par le script. `/home/hadoop/datapipeline_jars` Si votre cluster est configuré différemment, modifiez le script de manière appropriée après l'avoir téléchargé.

La syntaxe d'exécution du script sur la ligne de commande est légèrement différente de celle `bootstrapAction` utilisée dans l'exemple précédent. Utilisez des espaces plutôt que des virgules entre les arguments, comme indiqué dans l'exemple suivant.

```
./copy-jars-to-hadoop-classpath.sh us-west-2 s3://path/to/my-jar-file.jar s3://dynamodb-dpl-us-west-2/emr-ddb-storage-handler/4.14.0/emr-dynamodb-tools-4.14.0-jar-with-dependencies.jar
```

## Autorisations Amazon EMR
<a name="w2aac52c17b9c11"></a>

Lorsque vous créez un rôle IAM personnalisé, considérez attentivement les autorisations minimales nécessaires pour que votre cluster effectue son travail. Assurez-vous d'accorder l'accès aux ressources requises, telles que les fichiers dans Amazon S3 ou les données dans Amazon RDS, Amazon Redshift ou DynamoDB. Si vous souhaitez définir `visibleToAllUsers` avec la valeur False, votre rôle doit avoir les autorisations appropriées pour le faire. Notez que `DataPipelineDefaultRole` ne dispose pas de ces autorisations. Vous devez soit fournir une union des `DataPipelineDefaultRole` rôles `DefaultDataPipelineResourceRole` et en tant que rôle `EmrCluster` objet, soit créer votre propre rôle à cette fin.

## Syntaxe
<a name="emrcluster-syntax"></a>


****  

| Champs d'invocation de l'objet | Description | Type d'option | 
| --- | --- | --- | 
| schedule | Cet objet est appelé dans le cadre de l'exécution d'un intervalle de planification. Spécifiez une référence de planification à un autre objet pour définir l'ordre d'exécution des dépendances de l'objet. Vous pouvez répondre à cette exigence en définissant explicitement une planification sur l'objet, par exemple, en spécifiant "schedule": \$1"ref": "DefaultSchedule"\$1. Dans la plupart des cas, il est préférable de placer la planification de référence sur l'objet de pipeline par défaut de manière à ce que tous les objets héritent cette planification. Ou, si le pipeline dispose d'une arborescence de planifications (planifications au sein de la planification maître), vous pouvez créer un objet parent ayant une référence de planification. Pour plus d'informations sur les exemples de configurations de planification facultatives, consultez [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html). | Objet de référence, par exemple,  "schedule":\$1"ref":"myScheduleId"\$1 | 

 


****  

| Champs facultatifs | Description | Type d'option | 
| --- | --- | --- | 
| actionOnResourceDéfaillance | Action effectuée après une défaillance de ressource pour cette ressource. Les valeurs valides sont « retryall », valeur qui retente toutes les tâches sur le cluster pendant la durée spécifiée, et « retrynone ». | String | 
| actionOnTaskDéfaillance | Action effectuée après l'échec d'une tâche pour cette ressource. Les valeurs valides sont « continue », qui signifie de ne pas mettre fin au cluster, et « terminate ». | String | 
| additionalMasterSecurityGroupIds | Identifiant des groupes de sécurité principaux supplémentaires du cluster EMR, sous la forme sg-01. XXXX6a Pour plus d'informations, consultez la section [Groupes de sécurité supplémentaires Amazon EMR](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-additional-sec-groups.html) dans le guide de gestion Amazon EMR. | String | 
| additionalSlaveSecurityGroupIds | Identifiant des groupes de sécurité esclave supplémentaires du cluster EMR, sous la forme sg-01XXXX6a. | String | 
| amiVersion | Version Amazon Machine Image (AMI) utilisée par Amazon EMR pour installer les nœuds du cluster. Pour de plus amples informations, veuillez consulter le [Amazon EMR Management Guide](https://docs.aws.amazon.com/emr/latest/ManagementGuide/). | String | 
| applications | Applications à installer dans le cluster avec les arguments séparés par des virgules. Par défaut Hive et Pig sont installés. Ce paramètre s'applique uniquement aux versions 4.0 et ultérieures d'Amazon EMR. | String | 
| attemptStatus | État de l'activité à distance le plus récemment rapporté. | String | 
| attemptTimeout | Délai d'achèvement de la tâche à distance. Si une valeur est définie, une activité à distance qui n'est pas exécutée dans le cadre de la période de départ définie peut être retentée. | Period | 
| availabilityZone | Zone de disponibilité dans laquelle exécuter le cluster. | String | 
| bootstrapAction | Action à exécuter lorsque le cluster démarre. Vous pouvez spécifier des arguments séparés par des virgules. Pour spécifier plusieurs actions (jusqu'à 255), ajoutez plusieurs champs bootstrapAction. Le comportement par défaut consiste à lancer le cluster sans actions d'amorçage. | String | 
| configuration | Configuration pour le cluster Amazon EMR. Ce paramètre s'applique uniquement aux versions 4.0 et ultérieures d'Amazon EMR. | Objet de référence, par exemple, "configuration":\$1"ref":"myEmrConfigurationId"\$1 | 
| coreInstanceBidPrix | Le prix spot maximum que vous êtes prêt à payer pour les instances Amazon EC2. Si le prix de l'offre est spécifié, Amazon EMR utilise les instances spot pour le groupe d'instances. Spécifié en USD. | String | 
| coreInstanceCount | Nombre de nœuds principaux à utiliser pour le cluster. | Entier | 
| coreInstanceType | Type d'instance Amazon EC2 à utiliser pour les nœuds principaux. Consultez [Instances Amazon EC2 prises en charge pour les clusters Amazon EMR](dp-emr-supported-instance-types.md). | String | 
| coreGroupConfiguration | Configuration du groupe d'instances principal du cluster Amazon EMR. Ce paramètre s'applique uniquement aux versions 4.0 et ultérieures d'Amazon EMR. | Objet de référence, par exemple, “configuration”: \$1“ref”: “myEmrConfigurationId”\$1 | 
| coreEbsConfiguration | Configuration des volumes Amazon EBS qui seront attachés à chacun des nœuds principaux du groupe principal du cluster Amazon EMR. Pour plus d'informations, consultez la section [Types d'instances qui supportent l'optimisation EBS](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/EBSOptimized.html) dans le guide de l'utilisateur Amazon EC2. | Objet de référence, par exemple, “coreEbsConfiguration”: \$1“ref”: “myEbsConfiguration”\$1 | 
| customAmiId | S'applique uniquement aux versions 5.7.0 et ultérieures d'Amazon EMR. Spécifie l'ID AMI d'une AMI personnalisée à utiliser lorsqu'Amazon EMR approvisionne des instances Amazon EC2. Il peut également être utilisé à la place des actions bootstrap pour personnaliser les configurations des nœuds du cluster. Pour plus d'informations, consultez la rubrique suivante dans le guide de gestion Amazon EMR. [Utilisation d'une AMI personnalisée](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-custom-ami.html) | String | 
| EbsBlockDeviceConfig |  Configuration d'un périphérique de bloc Amazon EBS demandé associé au groupe d'instances. Inclut un nombre spécifié de volumes qui seront associés à chaque instance du groupe d'instances. Inclut `volumesPerInstance` et `volumeSpecification`, où :  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/fr_fr/datapipeline/latest/DeveloperGuide/dp-object-emrcluster.html)  | Objet de référence, par exemple, “EbsBlockDeviceConfig”: \$1“ref”: “myEbsBlockDeviceConfig”\$1 | 
| emrManagedMasterSecurityGroupId | Identifiant du groupe de sécurité principal du cluster Amazon EMR, qui prend la forme de. sg-01XXXX6a Pour plus d'informations, consultez [Configurer les groupes de sécurité](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-security-groups.html) dans le guide de gestion Amazon EMR. | String | 
| emrManagedSlaveSecurityGroupId | L'identifiant du groupe de sécurité esclave du cluster Amazon EMR, qui suit le formulaire. sg-01XXXX6a | String | 
| enableDebugging | Active le débogage sur le cluster Amazon EMR. | String | 
| failureAndRerunMode | Décrit le comportement du nœud de consommateurs lorsque les dépendances échouent ou sont à nouveau exécutées. | Énumération | 
| hadoopSchedulerType | Type de planificateur du cluster. Les types valides sont : PARALLEL\$1FAIR\$1SCHEDULING, PARALLEL\$1CAPACITY\$1SCHEDULING et DEFAULT\$1SCHEDULER. | Énumération | 
| httpProxy | Hôte proxy que les clients utilisent pour se connecter aux services AWS. | Objet de référence, par exemple, « HttpProxy » : \$1"ref » : » myHttpProxy Id "\$1 | 
| initTimeout | Délai d'attente pour le démarrage de la ressource.  | Period | 
| keyPair | La paire de clés Amazon EC2 à utiliser pour se connecter au nœud principal du cluster Amazon EMR. | String | 
| lateAfterTimeout | Temps écoulé après le début du pipeline pendant lequel l'objet doit être terminé. Il est déclenché uniquement lorsque le type de planification n'est pas défini surondemand. | Period | 
| masterInstanceBidPrix | Le prix spot maximum que vous êtes prêt à payer pour les instances Amazon EC2. Valeur décimale comprise entre 0 et 20,00 (exclu). Spécifié en USD. La définition de cette valeur autorise les instances Spot pour le nœud maître du cluster Amazon EMR. Si le prix de l'offre est spécifié, Amazon EMR utilise les instances spot pour le groupe d'instances. | String | 
| masterInstanceType | Type d'instance Amazon EC2 à utiliser pour le nœud maître. Consultez [Instances Amazon EC2 prises en charge pour les clusters Amazon EMR](dp-emr-supported-instance-types.md). | String | 
| masterGroupConfiguration | Configuration du groupe d'instances principal du cluster Amazon EMR. Ce paramètre s'applique uniquement aux versions 4.0 et ultérieures d'Amazon EMR. | Objet de référence, par exemple, “configuration”: \$1“ref”: “myEmrConfigurationId”\$1 | 
| masterEbsConfiguration | Configuration des volumes Amazon EBS qui seront attachés à chacun des nœuds principaux du groupe maître du cluster Amazon EMR. Pour plus d'informations, consultez la section [Types d'instances qui supportent l'optimisation EBS](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/EBSOptimized.html) dans le guide de l'utilisateur Amazon EC2. | Objet de référence, par exemple, “masterEbsConfiguration”: \$1“ref”: “myEbsConfiguration”\$1 | 
| maxActiveInstances | Nombre maximal d'instances actives simultanées d'un composant. Les réexécutions ne sont pas comptabilisées dans le nombre d'instances actives. | Entier | 
| maximumRetries | Nombre maximal de nouvelles tentatives en cas d'échec. | Entier | 
| onFail | Action à exécuter en cas d'échec de l'objet actuel. | Objet de référence, par exemple, "onFail":\$1"ref":"myActionId"\$1 | 
| onLateAction | Actions à déclencher si un objet n'a pas encore été planifié ou n'est toujours pas terminé. | Objet de référence, par exemple, "onLateAction":\$1"ref":"myActionId"\$1 | 
| onSuccess | Action à exécuter en cas de réussite de l'objet actuel. | Objet de référence, par exemple, "onSuccess":\$1"ref":"myActionId"\$1 | 
| parent | Parent de l'objet actuel à partir duquel les emplacements sont hérités. | Objet de référence, par exemple, "parent":\$1"ref":"myBaseObjectId"\$1 | 
| pipelineLogUri | L'URI Amazon S3 (tel que 's3 ://BucketName/Key/ ') pour le téléchargement des journaux pour le pipeline. | String | 
| region | Code de la région dans laquelle le cluster Amazon EMR doit s'exécuter. Par défaut, le cluster s'exécute dans la même région que le pipeline. Vous pouvez exécuter le cluster dans la même région qu'un ensemble de données dépendantes.  | Énumération | 
| releaseLabel | Étiquette de publication pour le cluster EMR. | String | 
| reportProgressTimeout | Délai pour les appels successifs de travail à distance adressés à reportProgress. Si une valeur est définie, les activités à distance qui ne font pas état d'avancement pour la période spécifiée doivent être considérées comme bloquées et, par conséquent, retentées. | Period | 
| resourceRole | Rôle IAM AWS Data Pipeline utilisé pour créer le cluster Amazon EMR. Le rôle par défaut est DataPipelineDefaultRole.  | String | 
| retryDelay | Délai entre deux nouvelles tentatives. | Period | 
| rôle | Le rôle IAM a été transmis à Amazon EMR pour créer des nœuds EC2. | String | 
| runsOn | Ce champ n'est pas autorisé sur cet objet. | Objet de référence, par exemple, "runsOn":\$1"ref":"myResourceId"\$1 | 
| Configuration de sécurité | Identifiant de la configuration de sécurité EMR qui sera appliquée au cluster. Ce paramètre s'applique uniquement aux versions 4.8.0 et ultérieures d'Amazon EMR. | String | 
| serviceAccessSecurityGroupId | Identifiant du groupe de sécurité d'accès aux services du cluster Amazon EMR.  | String. Suit le format sg-01XXXX6a, par exemple, sg-1234abcd. | 
| scheduleType | Le type de planification vous permet de spécifier si les objets de votre définition de pipeline doivent être planifiés au début ou à la fin de l'intervalle. Les valeurs sont : cron, ondemand et timeseries (cron, à la demande et séries chronologiques). La planification timeseries signifie que les instances sont programmées à la fin de chaque intervalle. La planification cron signifie que les instances sont programmées au début de chaque intervalle. Une planification ondemand vous permet d'exécuter un pipeline une fois par activation. Vous n'avez pas à cloner ou à recréer le pipeline pour l'exécuter à nouveau. Si vous utilisez une planification ondemand, elle doit être spécifiée dans l'objet par défaut et être le seul scheduleType spécifié pour les objets du pipeline. Pour utiliser des pipelines ondemand, vous devez appeler l'opération ActivatePipeline pour chaque exécution suivante. | Énumération | 
| subnetId | Identifiant du sous-réseau dans lequel lancer le cluster Amazon EMR. | String | 
| supportedProducts | Paramètre qui installe un logiciel tiers sur un cluster Amazon EMR, par exemple une distribution tierce de Hadoop. | String | 
| taskInstanceBidPrix | Prix spot maximum que vous êtes disposé à payer pour les instances EC2. Valeur décimale comprise entre 0 et 20,00 (exclu). Spécifié en USD. Si le prix de l'offre est spécifié, Amazon EMR utilise les instances spot pour le groupe d'instances. | String | 
| taskInstanceCount | Le nombre de nœuds de tâches à utiliser pour le cluster Amazon EMR. | Entier | 
| taskInstanceType | Type d'instance Amazon EC2 à utiliser pour les nœuds de tâches. | String | 
| taskGroupConfiguration | Configuration du groupe d'instances de tâches du cluster Amazon EMR. Ce paramètre s'applique uniquement aux versions 4.0 et ultérieures d'Amazon EMR.  | Objet de référence, par exemple, “configuration”: \$1“ref”: “myEmrConfigurationId”\$1 | 
| taskEbsConfiguration | Configuration des volumes Amazon EBS qui seront attachés à chacun des nœuds de tâches du groupe de tâches du cluster Amazon EMR. Pour plus d'informations, consultez la section [Types d'instances qui supportent l'optimisation EBS](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/EBSOptimized.html) dans le guide de l'utilisateur Amazon EC2. | Objet de référence, par exemple, “taskEbsConfiguration”: \$1“ref”: “myEbsConfiguration”\$1 | 
| terminateAfter | Résiliez la ressource à l'issue de ce nombre d'heures. | Entier | 
| VolumeSpecification |   Les spécifications du volume Amazon EBS, telles que le type de volume, les IOPS et la taille en gigaoctets (GiB), qui seront demandées pour le volume Amazon EBS attaché à une instance Amazon EC2 dans le cluster Amazon EMR. Le nœud peut être un nœud principal, maître ou de tâche.  `VolumeSpecification` inclut les éléments suivants : [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/fr_fr/datapipeline/latest/DeveloperGuide/dp-object-emrcluster.html)  | Objet de référence, par exemple, “VolumeSpecification”: \$1“ref”: “myVolumeSpecification”\$1 | 
| useOnDemandOnLastAttempt | Lors de la dernière tentative de demande d'une ressource, effectuez une demande d'instances à la demande, plutôt que d'instances Spot. Cela garantit que si toutes les tentatives précédentes ont échoué, la dernière tentative n'est pas interrompue.  | Booléen | 
| workerGroup | Champ non autorisé sur cet objet. | String | 

 


****  

| Champs liés à l'exécution | Description | Type d'option | 
| --- | --- | --- | 
| @activeInstances | Liste des objets d'instances actives actuellement planifiés. | Objet de référence, par exemple, « ActiveInstances » : \$1"ref » : » myRunnableObject Id "\$1 | 
| @actualEndTime | Heure à laquelle l'exécution de l'objet s'est terminée. | DateTime | 
| @actualStartTime | Heure à laquelle l'exécution de l'objet a démarré. | DateTime | 
| cancellationReason | Motif de l'annulation si l'objet a été annulé. | String | 
| @cascadeFailedOn | Description de la chaîne de dépendances sur laquelle l'objet a échoué. | Objet de référence, par exemple, "cascadeFailedOn« : \$1" ref » : » myRunnableObject Id "\$1 | 
| emrStepLog | Les journaux d'étapes ne sont disponibles que pour les tentatives d'activité sur Amazon EMR. | String | 
| errorId | ID de l'erreur si l'objet a échoué. | String | 
| errorMessage | Message d'erreur si l'objet a échoué. | String | 
| errorStackTrace | Suivi de la pile d'erreurs si l'objet a échoué. | String | 
| @failureReason | Raison de l'échec de la ressource. | String | 
| @finishedTime | Heure à laquelle l'objet a terminé son exécution. | DateTime | 
| hadoopJobLog | Des journaux de tâches Hadoop sont disponibles en cas de tentative d'activité sur Amazon EMR. | String | 
| @healthStatus | État de santé de l'objet qui reflète la réussite ou l'échec de la dernière instance qui a atteint un état résilié. | String | 
| @healthStatusFromInstanceId | ID du dernier objet d'instance qui atteint un état résilié. | String | 
| @ healthStatusUpdated Heure | Heure à laquelle l'état de santé a été mis à jour pour la dernière fois. | DateTime | 
| hostname | Nom d'hôte du client qui a sélectionné la tentative de tâche. | String | 
| @lastDeactivatedTime | Heure à laquelle l'objet a été désactivé pour la dernière fois. | DateTime | 
| @ latestCompletedRun Heure | Heure de la dernière exécution pour laquelle l'exécution s'est terminée. | DateTime | 
| @latestRunTime | Heure de la dernière exécution pour laquelle l'exécution a été planifiée. | DateTime | 
| @nextRunTime | Prochaine heure d'exécution planifiée. | DateTime | 
| reportProgressTime | Heure la plus récente pour laquelle l'activité distante a signalé une progression. | DateTime | 
| @scheduledEndTime | Heure de fin planifiée pour l'objet. | DateTime | 
| @scheduledStartTime | Heure de début planifiée pour l'objet. | DateTime | 
| @État | État de l'objet. | String | 
| @Version | Version du pipeline avec laquelle l'objet été créé. | String | 
| @waitingOn | Description de la liste des dépendances sur laquelle l'objet est en attente. | Objet de référence, par exemple, « WaitingOn » : \$1"ref » : » myRunnableObject Id "\$1 | 

 


****  

| Champs système | Description | Type d'option | 
| --- | --- | --- | 
| @error | Erreur décrivant l'objet mal formé. | String | 
| @pipelineId | ID du pipeline auquel l'objet appartient. | String | 
| @sphere | Emplacement d'un objet dans le cycle de vie. Les objets de composant entraînent des objets d'instance, qui exécutent des objets « tentatives ». | String | 

# Exemples
<a name="emrcluster-example"></a>

Les exemples suivants sont des exemples de ce type d'objet.

**Topics**
+ [Lancez un cluster Amazon EMR avec HadoopVersion](emrcluster-example-launch.md)
+ [Lancez un cluster Amazon EMR avec le label de version emr-4.x ou supérieur](emrcluster-example-release-label.md)
+ [Installez des logiciels supplémentaires sur votre cluster Amazon EMR](emrcluster-example-install-software.md)
+ [Désactiver le chiffrement côté serveur sur les versions 3.x](emrcluster-example1-disable-encryption.md)
+ [Désactiver le chiffrement côté serveur sur les versions 4.x](emrcluster-example2-disable-encryption.md)
+ [Configurer Hadoop KMS ACLs et créer des zones de chiffrement dans HDFS](emrcluster-example-hadoop-kms.md)
+ [Spécifier les rôles IAM personnalisés](emrcluster-example-custom-iam-roles.md)
+ [Utiliser EmrCluster une ressource dans le kit AWS SDK for Java](emrcluster-example-java.md)
+ [Configuration d'un cluster Amazon EMR dans un sous-réseau privé](emrcluster-example-private-subnet.md)
+ [Attachement des volumes EBS aux nœuds de cluster](emrcluster-example-ebs.md)

# Lancez un cluster Amazon EMR avec HadoopVersion
<a name="emrcluster-example-launch"></a>

**Example**  <a name="example1"></a>
L'exemple suivant lance un cluster Amazon EMR à l'aide de l'AMI version 1.0 et de Hadoop 0.20.  

```
{
  "id" : "MyEmrCluster",
  "type" : "EmrCluster",
  "hadoopVersion" : "0.20",
  "keyPair" : "my-key-pair",
  "masterInstanceType" : "m3.xlarge",
  "coreInstanceType" : "m3.xlarge",
  "coreInstanceCount" : "10",
  "taskInstanceType" : "m3.xlarge",
  "taskInstanceCount": "10",
  "bootstrapAction" : ["s3://Region.elasticmapreduce/bootstrap-actions/configure-hadoop,arg1,arg2,arg3","s3://Region.elasticmapreduce/bootstrap-actions/configure-hadoop/configure-other-stuff,arg1,arg2"]
}
```

# Lancez un cluster Amazon EMR avec le label de version emr-4.x ou supérieur
<a name="emrcluster-example-release-label"></a>

**Example**  
L'exemple suivant lance un cluster Amazon EMR à l'aide du nouveau champ : `releaseLabel`  

```
{
  "id" : "MyEmrCluster",
  "type" : "EmrCluster",
  "keyPair" : "my-key-pair",
  "masterInstanceType" : "m3.xlarge",
  "coreInstanceType" : "m3.xlarge",
  "coreInstanceCount" : "10",
  "taskInstanceType" : "m3.xlarge",
  "taskInstanceCount": "10",
  "releaseLabel": "emr-4.1.0",
  "applications": ["spark", "hive", "pig"],
  "configuration": {"ref":"myConfiguration"}  
}
```

# Installez des logiciels supplémentaires sur votre cluster Amazon EMR
<a name="emrcluster-example-install-software"></a>

**Example**  <a name="example2"></a>
`EmrCluster`fournit le `supportedProducts` champ qui installe un logiciel tiers sur un cluster Amazon EMR. Par exemple, il vous permet d'installer une distribution personnalisée de Hadoop, telle que MapR. Il accepte une liste d'arguments séparés par des virgules pour que le logiciel tiers puisse lire et agir en conséquence. L'exemple suivant montre comment utiliser le champ `supportedProducts` d'`EmrCluster` pour créer un cluster MapR M3 personnalisé avec la suite Karmasphere Analytics installée et y exécuter un objet `EmrActivity`.  

```
{
    "id": "MyEmrActivity",
    "type": "EmrActivity",
    "schedule": {"ref": "ResourcePeriod"},
    "runsOn": {"ref": "MyEmrCluster"},
    "postStepCommand": "echo Ending job >> /mnt/var/log/stepCommand.txt",    
    "preStepCommand": "echo Starting job > /mnt/var/log/stepCommand.txt",
    "step": "/home/hadoop/contrib/streaming/hadoop-streaming.jar,-input,s3n://elasticmapreduce/samples/wordcount/input,-output, \
     hdfs:///output32113/,-mapper,s3n://elasticmapreduce/samples/wordcount/wordSplitter.py,-reducer,aggregate"
  },
  {    
    "id": "MyEmrCluster",
    "type": "EmrCluster",
    "schedule": {"ref": "ResourcePeriod"},
    "supportedProducts": ["mapr,--edition,m3,--version,1.2,--key1,value1","karmasphere-enterprise-utility"],
    "masterInstanceType": "m3.xlarge",
    "taskInstanceType": "m3.xlarge"
}
```

# Désactiver le chiffrement côté serveur sur les versions 3.x
<a name="emrcluster-example1-disable-encryption"></a>

**Example**  <a name="example3"></a>
Une `EmrCluster` activité avec une version 2.x de Hadoop créée par AWS Data Pipeline active le chiffrement côté serveur par défaut. Si vous souhaitez désactiver le chiffrement côté serveur, vous devez spécifier une action de démarrage dans la définition de l'objet cluster.  
L'exemple suivant crée une activité `EmrCluster` avec le chiffrement côté serveur désactivé :  

```
{  
   "id":"NoSSEEmrCluster",
   "type":"EmrCluster",
   "hadoopVersion":"2.x",
   "keyPair":"my-key-pair",
   "masterInstanceType":"m3.xlarge",
   "coreInstanceType":"m3.large",
   "coreInstanceCount":"10",
   "taskInstanceType":"m3.large",
   "taskInstanceCount":"10",
   "bootstrapAction":["s3://Region.elasticmapreduce/bootstrap-actions/configure-hadoop,-e, fs.s3.enableServerSideEncryption=false"]
}
```

# Désactiver le chiffrement côté serveur sur les versions 4.x
<a name="emrcluster-example2-disable-encryption"></a>

**Example**  <a name="example4"></a>
Vous devez désactiver le chiffrement côté serveur à l'aide d'un objet `EmrConfiguration`.  
L'exemple suivant crée une activité `EmrCluster` avec le chiffrement côté serveur désactivé :  

```
   {
      "name": "ReleaseLabelCluster",
      "releaseLabel": "emr-4.1.0",
      "applications": ["spark", "hive", "pig"],
      "id": "myResourceId",
      "type": "EmrCluster",
      "configuration": {
        "ref": "disableSSE"
      }
    },
    {
      "name": "disableSSE",
      "id": "disableSSE",
      "type": "EmrConfiguration",
      "classification": "emrfs-site",
      "property": [{
        "ref": "enableServerSideEncryption"
      }
      ]
    },
    {
      "name": "enableServerSideEncryption",
      "id": "enableServerSideEncryption",
      "type": "Property",
      "key": "fs.s3.enableServerSideEncryption",
      "value": "false"
    }
```

# Configurer Hadoop KMS ACLs et créer des zones de chiffrement dans HDFS
<a name="emrcluster-example-hadoop-kms"></a>

**Example**  <a name="example5"></a>
Les objets suivants sont créés ACLs pour Hadoop KMS et créent des zones de chiffrement ainsi que les clés de chiffrement correspondantes dans HDFS :  

```
{
      "name": "kmsAcls",
      "id": "kmsAcls",
      "type": "EmrConfiguration",
      "classification": "hadoop-kms-acls",
      "property": [
        {"ref":"kmsBlacklist"},
        {"ref":"kmsAcl"}
      ]
    },
    {
      "name": "hdfsEncryptionZone",
      "id": "hdfsEncryptionZone",
      "type": "EmrConfiguration",
      "classification": "hdfs-encryption-zones",
      "property": [
        {"ref":"hdfsPath1"},
        {"ref":"hdfsPath2"}
      ]
    },
    {
      "name": "kmsBlacklist",
      "id": "kmsBlacklist",
      "type": "Property",
      "key": "hadoop.kms.blacklist.CREATE",
      "value": "foo,myBannedUser"
    },
    {
      "name": "kmsAcl",
      "id": "kmsAcl",
      "type": "Property",
      "key": "hadoop.kms.acl.ROLLOVER",
      "value": "myAllowedUser"
    },
    {
      "name": "hdfsPath1",
      "id": "hdfsPath1",
      "type": "Property",
      "key": "/myHDFSPath1",
      "value": "path1_key"
    },
    {
      "name": "hdfsPath2",
      "id": "hdfsPath2",
      "type": "Property",
      "key": "/myHDFSPath2",
      "value": "path2_key"
    }
```

# Spécifier les rôles IAM personnalisés
<a name="emrcluster-example-custom-iam-roles"></a>

**Example**  <a name="example6"></a>
Par défaut, il AWS Data Pipeline est transmis `DataPipelineDefaultRole` en tant que rôle de service Amazon EMR et `DataPipelineDefaultResourceRole` en tant que profil d'instance Amazon EC2 pour créer des ressources en votre nom. Cependant, vous pouvez créer un rôle de service Amazon EMR personnalisé et un profil d'instance personnalisé et les utiliser à la place. AWS Data Pipeline doit disposer des autorisations suffisantes pour créer des clusters à l'aide du rôle personnalisé, et vous devez les ajouter AWS Data Pipeline en tant qu'entité de confiance.  
L'exemple d'objet suivant spécifie des rôles personnalisés pour le cluster Amazon EMR :  

```
{  
   "id":"MyEmrCluster",
   "type":"EmrCluster",
   "hadoopVersion":"2.x",
   "keyPair":"my-key-pair",
   "masterInstanceType":"m3.xlarge",
   "coreInstanceType":"m3.large",
   "coreInstanceCount":"10",
   "taskInstanceType":"m3.large",
   "taskInstanceCount":"10",
   "role":"emrServiceRole",
   "resourceRole":"emrInstanceProfile"
}
```

# Utiliser EmrCluster une ressource dans le kit AWS SDK for Java
<a name="emrcluster-example-java"></a>

**Example**  <a name="example7"></a>
L'exemple suivant montre comment utiliser un `EmrCluster` et `EmrActivity` pour créer un cluster Amazon EMR 4.x pour exécuter une étape Spark à l'aide du SDK Java :  

```
public class dataPipelineEmr4 {

  public static void main(String[] args) {
    
	AWSCredentials credentials = null;
	credentials = new ProfileCredentialsProvider("/path/to/AwsCredentials.properties","default").getCredentials();
	DataPipelineClient dp = new DataPipelineClient(credentials);
	CreatePipelineRequest createPipeline = new CreatePipelineRequest().withName("EMR4SDK").withUniqueId("unique");
	CreatePipelineResult createPipelineResult = dp.createPipeline(createPipeline);
	String pipelineId = createPipelineResult.getPipelineId();
    
	PipelineObject emrCluster = new PipelineObject()
	    .withName("EmrClusterObj")
	    .withId("EmrClusterObj")
	    .withFields(
			new Field().withKey("releaseLabel").withStringValue("emr-4.1.0"),
			new Field().withKey("coreInstanceCount").withStringValue("3"),
			new Field().withKey("applications").withStringValue("spark"),
			new Field().withKey("applications").withStringValue("Presto-Sandbox"),
			new Field().withKey("type").withStringValue("EmrCluster"),
			new Field().withKey("keyPair").withStringValue("myKeyName"),
			new Field().withKey("masterInstanceType").withStringValue("m3.xlarge"),
			new Field().withKey("coreInstanceType").withStringValue("m3.xlarge")        
			);
  
	PipelineObject emrActivity = new PipelineObject()
	    .withName("EmrActivityObj")
	    .withId("EmrActivityObj")
	    .withFields(
			new Field().withKey("step").withStringValue("command-runner.jar,spark-submit,--executor-memory,1g,--class,org.apache.spark.examples.SparkPi,/usr/lib/spark/lib/spark-examples.jar,10"),
			new Field().withKey("runsOn").withRefValue("EmrClusterObj"),
			new Field().withKey("type").withStringValue("EmrActivity")
			);
      
	PipelineObject schedule = new PipelineObject()
	    .withName("Every 15 Minutes")
	    .withId("DefaultSchedule")
	    .withFields(
			new Field().withKey("type").withStringValue("Schedule"),
			new Field().withKey("period").withStringValue("15 Minutes"),
			new Field().withKey("startAt").withStringValue("FIRST_ACTIVATION_DATE_TIME")
			);
      
	PipelineObject defaultObject = new PipelineObject()
	    .withName("Default")
	    .withId("Default")
	    .withFields(
			new Field().withKey("failureAndRerunMode").withStringValue("CASCADE"),
			new Field().withKey("schedule").withRefValue("DefaultSchedule"),
			new Field().withKey("resourceRole").withStringValue("DataPipelineDefaultResourceRole"),
			new Field().withKey("role").withStringValue("DataPipelineDefaultRole"),
			new Field().withKey("pipelineLogUri").withStringValue("s3://myLogUri"),
			new Field().withKey("scheduleType").withStringValue("cron")
			);     
      
	List<PipelineObject> pipelineObjects = new ArrayList<PipelineObject>();
    
	pipelineObjects.add(emrActivity);
	pipelineObjects.add(emrCluster);
	pipelineObjects.add(defaultObject);
	pipelineObjects.add(schedule);
    
	PutPipelineDefinitionRequest putPipelineDefintion = new PutPipelineDefinitionRequest()
	    .withPipelineId(pipelineId)
	    .withPipelineObjects(pipelineObjects);
    
	PutPipelineDefinitionResult putPipelineResult = dp.putPipelineDefinition(putPipelineDefintion);
	System.out.println(putPipelineResult);
    
	ActivatePipelineRequest activatePipelineReq = new ActivatePipelineRequest()
	    .withPipelineId(pipelineId);
	ActivatePipelineResult activatePipelineRes = dp.activatePipeline(activatePipelineReq);
	
      System.out.println(activatePipelineRes);
      System.out.println(pipelineId);
    
    }

}
```

# Configuration d'un cluster Amazon EMR dans un sous-réseau privé
<a name="emrcluster-example-private-subnet"></a>

**Example**  <a name="example8"></a>
Cet exemple comprend une configuration qui lance le cluster dans un sous-réseau privé dans un VPC. Pour plus d'informations, consultez la section [Lancer des clusters Amazon EMR dans un VPC dans le guide de gestion](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-vpc-launching-job-flows.html) Amazon *EMR*. Cette configuration est facultative. Vous pouvez l'utiliser dans n'importe quel pipeline utilisant un objet `EmrCluster`.  
Pour lancer un cluster Amazon EMR dans un sous-réseau privé, spécifiez, `SubnetId` `emrManagedMasterSecurityGroupId``emrManagedSlaveSecurityGroupId`, et `serviceAccessSecurityGroupId` dans votre configuration. `EmrCluster`  

```
{
  "objects": [
    {
      "output": {
        "ref": "S3BackupLocation"
      },
      "input": {
        "ref": "DDBSourceTable"
      },
      "maximumRetries": "2",
      "name": "TableBackupActivity",
      "step": "s3://dynamodb-emr-#{myDDBRegion}/emr-ddb-storage-handler/2.1.0/emr-ddb-2.1.0.jar,org.apache.hadoop.dynamodb.tools.DynamoDbExport,#{output.directoryPath},#{input.tableName},#{input.readThroughputPercent}",
      "id": "TableBackupActivity",
      "runsOn": {
        "ref": "EmrClusterForBackup"
      },
      "type": "EmrActivity",
      "resizeClusterBeforeRunning": "false"
    },
    {
      "readThroughputPercent": "#{myDDBReadThroughputRatio}",
      "name": "DDBSourceTable",
      "id": "DDBSourceTable",
      "type": "DynamoDBDataNode",
      "tableName": "#{myDDBTableName}"
    },
    {
      "directoryPath": "#{myOutputS3Loc}/#{format(@scheduledStartTime, 'YYYY-MM-dd-HH-mm-ss')}",
      "name": "S3BackupLocation",
      "id": "S3BackupLocation",
      "type": "S3DataNode"
    },
    {
      "name": "EmrClusterForBackup",
      "coreInstanceCount": "1",
      "taskInstanceCount": "1",
      "taskInstanceType": "m4.xlarge",
      "coreInstanceType": "m4.xlarge",
      "releaseLabel": "emr-4.7.0",
      "masterInstanceType": "m4.xlarge",
      "id": "EmrClusterForBackup",
      "subnetId": "#{mySubnetId}",
      "emrManagedMasterSecurityGroupId": "#{myMasterSecurityGroup}",
      "emrManagedSlaveSecurityGroupId": "#{mySlaveSecurityGroup}",
      "serviceAccessSecurityGroupId": "#{myServiceAccessSecurityGroup}",
      "region": "#{myDDBRegion}",
      "type": "EmrCluster",
      "keyPair": "user-key-pair"
    },
    {
      "failureAndRerunMode": "CASCADE",
      "resourceRole": "DataPipelineDefaultResourceRole",
      "role": "DataPipelineDefaultRole",
      "pipelineLogUri": "#{myPipelineLogUri}",
      "scheduleType": "ONDEMAND",
      "name": "Default",
      "id": "Default"
    }
  ],
  "parameters": [
    {
      "description": "Output S3 folder",
      "id": "myOutputS3Loc",
      "type": "AWS::S3::ObjectKey"
    },
    {
      "description": "Source DynamoDB table name",
      "id": "myDDBTableName",
      "type": "String"
    },
    {
      "default": "0.25",
      "watermark": "Enter value between 0.1-1.0",
      "description": "DynamoDB read throughput ratio",
      "id": "myDDBReadThroughputRatio",
      "type": "Double"
    },
    {
      "default": "us-east-1",
      "watermark": "us-east-1",
      "description": "Region of the DynamoDB table",
      "id": "myDDBRegion",
      "type": "String"
    }
  ],
  "values": {
     "myDDBRegion": "us-east-1",
      "myDDBTableName": "ddb_table",
      "myDDBReadThroughputRatio": "0.25",
      "myOutputS3Loc": "s3://s3_path",
      "mySubnetId": "subnet_id",
      "myServiceAccessSecurityGroup":  "service access security group",
      "mySlaveSecurityGroup": "slave security group",
      "myMasterSecurityGroup": "master security group",
      "myPipelineLogUri": "s3://s3_path"
  }
}
```

# Attachement des volumes EBS aux nœuds de cluster
<a name="emrcluster-example-ebs"></a>

**Example**  <a name="example8"></a>
Vous pouvez attacher des volumes EBS à n'importe quel type de nœud du cluster EMR dans de votre pipeline. Pour attacher des volumes EBS à des nœuds, utilisez `coreEbsConfiguration`, `masterEbsConfiguration`et `TaskEbsConfiguration` dans votre configuration `EmrCluster`.   
Cet exemple de cluster Amazon EMR utilise des volumes Amazon EBS pour ses nœuds principaux, de tâches et principaux. Pour plus d'informations, consultez les [volumes Amazon EBS dans Amazon EMR](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-plan-storage.html) dans le guide de gestion *Amazon EMR.*  
Ces configurations sont facultatives. Vous pouvez les utiliser dans n'importe quel pipeline utilisant un objet `EmrCluster`.  
Dans le pipeline, cliquez sur la configuration d'objet `EmrCluster`, choisissez **Master EBS Configuration** (Configuration EBS maître), **Core EBS Configuration** (Configuration EBS principal) ou **Task EBS Configuration** (Configuration EBS de tâches) et saisissez les détails de configuration similaire à l'exemple suivant.  

```
{
  "objects": [
    {
      "output": {
        "ref": "S3BackupLocation"
      },
      "input": {
        "ref": "DDBSourceTable"
      },
      "maximumRetries": "2",
      "name": "TableBackupActivity",
      "step": "s3://dynamodb-emr-#{myDDBRegion}/emr-ddb-storage-handler/2.1.0/emr-ddb-2.1.0.jar,org.apache.hadoop.dynamodb.tools.DynamoDbExport,#{output.directoryPath},#{input.tableName},#{input.readThroughputPercent}",
      "id": "TableBackupActivity",
      "runsOn": {
        "ref": "EmrClusterForBackup"
      },
      "type": "EmrActivity",
      "resizeClusterBeforeRunning": "false"
    },
    {
      "readThroughputPercent": "#{myDDBReadThroughputRatio}",
      "name": "DDBSourceTable",
      "id": "DDBSourceTable",
      "type": "DynamoDBDataNode",
      "tableName": "#{myDDBTableName}"
    },
    {
      "directoryPath": "#{myOutputS3Loc}/#{format(@scheduledStartTime, 'YYYY-MM-dd-HH-mm-ss')}",
      "name": "S3BackupLocation",
      "id": "S3BackupLocation",
      "type": "S3DataNode"
    },
    {
      "name": "EmrClusterForBackup",
      "coreInstanceCount": "1",
      "taskInstanceCount": "1",
      "taskInstanceType": "m4.xlarge",
      "coreInstanceType": "m4.xlarge",
      "releaseLabel": "emr-4.7.0",
      "masterInstanceType": "m4.xlarge",
      "id": "EmrClusterForBackup",
      "subnetId": "#{mySubnetId}",
      "emrManagedMasterSecurityGroupId": "#{myMasterSecurityGroup}",
      "emrManagedSlaveSecurityGroupId": "#{mySlaveSecurityGroup}",
      "region": "#{myDDBRegion}",
      "type": "EmrCluster",
      "coreEbsConfiguration": {
        "ref": "EBSConfiguration"
      },
      "masterEbsConfiguration": {
        "ref": "EBSConfiguration"
      },
      "taskEbsConfiguration": {
        "ref": "EBSConfiguration"
      },
      "keyPair": "user-key-pair"
    },
    {
       "name": "EBSConfiguration",
        "id": "EBSConfiguration",
        "ebsOptimized": "true",
        "ebsBlockDeviceConfig" : [
            { "ref": "EbsBlockDeviceConfig" }
        ],
        "type": "EbsConfiguration"
    },
    {
        "name": "EbsBlockDeviceConfig",
        "id": "EbsBlockDeviceConfig",
        "type": "EbsBlockDeviceConfig",
        "volumesPerInstance" : "2",
        "volumeSpecification" : {
            "ref": "VolumeSpecification"
        }
    },
    {
      "name": "VolumeSpecification",
      "id": "VolumeSpecification",
      "type": "VolumeSpecification",
      "sizeInGB": "500",
      "volumeType": "io1",
      "iops": "1000"
    },
    {
      "failureAndRerunMode": "CASCADE",
      "resourceRole": "DataPipelineDefaultResourceRole",
      "role": "DataPipelineDefaultRole",
      "pipelineLogUri": "#{myPipelineLogUri}",
      "scheduleType": "ONDEMAND",
      "name": "Default",
      "id": "Default"
    }
  ],
  "parameters": [
    {
      "description": "Output S3 folder",
      "id": "myOutputS3Loc",
      "type": "AWS::S3::ObjectKey"
    },
    {
      "description": "Source DynamoDB table name",
      "id": "myDDBTableName",
      "type": "String"
    },
    {
      "default": "0.25",
      "watermark": "Enter value between 0.1-1.0",
      "description": "DynamoDB read throughput ratio",
      "id": "myDDBReadThroughputRatio",
      "type": "Double"
    },
    {
      "default": "us-east-1",
      "watermark": "us-east-1",
      "description": "Region of the DynamoDB table",
      "id": "myDDBRegion",
      "type": "String"
    }
  ],
  "values": {
     "myDDBRegion": "us-east-1",
      "myDDBTableName": "ddb_table",
      "myDDBReadThroughputRatio": "0.25",
      "myOutputS3Loc": "s3://s3_path",
      "mySubnetId": "subnet_id",
      "mySlaveSecurityGroup": "slave security group",
      "myMasterSecurityGroup": "master security group",
      "myPipelineLogUri": "s3://s3_path"
  }
}
```

## Voir aussi
<a name="emrcluster-seealso"></a>
+ [EmrActivity](dp-object-emractivity.md)

# HttpProxy
<a name="dp-object-httpproxy"></a>

HttpProxy vous permet de configurer votre propre proxy et de permettre à Task Runner d'accéder au AWS Data Pipeline service via celui-ci. Vous n'avez pas besoin de configurer un Task Runner en cours d'exécution avec ces informations.

## Exemple d' HttpProxy entrée TaskRunner
<a name="example9"></a>

La définition de pipeline suivante présente un objet `HttpProxy` :

```
{
  "objects": [
    {
      "schedule": {
        "ref": "Once"
      },
      "pipelineLogUri": "s3://myDPLogUri/path",
      "name": "Default",
      "id": "Default"
    },
    {
      "name": "test_proxy",
      "hostname": "hostname",
      "port": "port",
      "username": "username",
      "*password": "password",
      "windowsDomain": "windowsDomain",
      "type": "HttpProxy",
      "id": "test_proxy",
    },
    {
      "name": "ShellCommand",
      "id": "ShellCommand",
      "runsOn": {
        "ref": "Resource"
      },
      "type": "ShellCommandActivity",
      "command": "echo 'hello world' "
    },
    {
      "period": "1 day",
      "startDateTime": "2013-03-09T00:00:00",
      "name": "Once",
      "id": "Once",
      "endDateTime": "2013-03-10T00:00:00",
      "type": "Schedule"
    },
    {
      "role": "dataPipelineRole",
      "httpProxy": {
        "ref": "test_proxy"
      },
      "actionOnResourceFailure": "retrynone",
      "maximumRetries": "0",
      "type": "Ec2Resource",
      "terminateAfter": "10 minutes",
      "resourceRole": "resourceRole",
      "name": "Resource",
      "actionOnTaskFailure": "terminate",
      "securityGroups": "securityGroups",
      "keyPair": "keyPair",
      "id": "Resource",
      "region": "us-east-1"
    }
  ],
  "parameters": []
}
```

## Syntaxe
<a name="httpproxy-slots"></a>


****  

| Champs obligatoires | Description | Type d'option | 
| --- | --- | --- | 
| hostname | Hôte du proxy que les clients utilisent pour se connecter aux services AWS. | String | 
| port | Port de l'hôte proxy que les clients utilisent pour se connecter aux services AWS. | String | 

 


****  

| Champs facultatifs | Description | Type d'option | 
| --- | --- | --- | 
| parent | Parent de l'objet actuel à partir duquel les emplacements sont hérités. | Objet de référence, par exemple « parent » : \$1"ref » : » myBaseObject Id "\$1 | 
| \$1password | Mot de passe du proxy. | String | 
| s3 NoProxy | Désactive le proxy HTTP lors de la connexion à Amazon S3. | Booléen | 
| nom d’utilisateur | Nom d'utilisateur du proxy. | String | 
| windowsDomain | Nom de domaine Windows pour le proxy NTLM. | String | 
| windowsWorkgroup | Nom du groupe de travail Windows pour le proxy NTLM. | String | 

 


****  

| Champs liés à l'exécution | Description | Type d'option | 
| --- | --- | --- | 
| @Version | Version du pipeline avec laquelle l'objet été créé. | String | 

 


****  

| Champs système | Description | Type d'option | 
| --- | --- | --- | 
| @error | Erreur décrivant l'objet mal formé. | String | 
| @pipelineId | Id du pipeline auquel l'objet appartient. | String | 
| @sphere | La sphère d'un objet désigne sa place dans le cycle de vie : les objets « composant » entraînent les objets « instance » qui exécutent les objets « tentative ». | String | 

# Conditions préalables
<a name="dp-object-preconditions"></a>

Les objets de AWS Data Pipeline précondition sont les suivants :

**Topics**
+ [Dynamo existe DBData](dp-dynamodbdataexists.md)
+ [Dynamo existe DBTable](dp-dynamodbtableexists.md)
+ [Existe](dp-object-exists.md)
+ [S3 KeyExists](dp-object-S3KeyExists.md)
+ [S3 PrefixNotEmpty](dp-object-s3prefixnotempty.md)
+ [ShellCommandPrecondition](dp-object-shellcommandprecondition.md)

# Dynamo existe DBData
<a name="dp-dynamodbdataexists"></a>

 Une condition préalable pour vérifier que les données existent dans une table DynamoDB. 

## Syntaxe
<a name="dp-dynamodbdataexists-syntax"></a>


****  

| Champs obligatoires | Description | Type d'option | 
| --- | --- | --- | 
| rôle | Spécifie le rôle à utiliser pour exécuter la condition préalable. | String | 
| tableName | Table DynamoDB à vérifier. | String | 

 


****  

| Champs facultatifs | Description | Type d'option | 
| --- | --- | --- | 
| attemptStatus | État de l'activité à distance le plus récemment rapporté. | String | 
| attemptTimeout | Délai d'achèvement de la tâche à distance. Si une valeur est définie, une activité à distance qui n'est pas exécutée dans le cadre de la période de départ définie peut être retentée. | Period | 
| failureAndRerunMode | Décrit le comportement du nœud de consommateurs lorsque les dépendances échouent ou sont à nouveau exécutées. | Énumération | 
| lateAfterTimeout | Temps écoulé après le début du pipeline pendant lequel l'objet doit être terminé. Il est déclenché uniquement lorsque le type de planification n'est pas défini surondemand. | Period | 
| maximumRetries | Nombre maximal de nouvelles tentatives en cas d'échec | Entier | 
| onFail | Action à exécuter en cas d'échec de l'objet actuel. | Objet de référence, par exemple « onFail » : \$1"ref » : » myActionId «\$1 | 
| onLateAction | Actions à déclencher si un objet n'a pas encore été planifié ou n'est toujours pas terminé. | Objet de référence, par exemple "onLateAction« : \$1" ref » : » myActionId «\$1 | 
| onSuccess | Action à exécuter en cas de réussite de l'objet actuel. | Objet de référence, par exemple « onSuccess » : \$1"ref » : » myActionId «\$1 | 
| parent | Parent de l'objet actuel à partir duquel les emplacements sont hérités. | Objet de référence, par exemple « parent » : \$1"ref » : » myBaseObject Id "\$1 | 
| preconditionTimeout | Période depuis le démarrage après laquelle la condition préalable est marquée comme ayant échoué si elle n'est toujours pas satisfaite | Period | 
| reportProgressTimeout | Délai pour les appels successifs de travail à distance adressés à reportProgress. Si une valeur est définie, les activités à distance qui ne font pas état d'avancement pour la période spécifiée doivent être considérées comme bloquées et, par conséquent, retentées. | Period | 
| retryDelay | Délai entre deux nouvelles tentatives. | Period | 

 


****  

| Champs liés à l'exécution | Description | Type d'option | 
| --- | --- | --- | 
| @activeInstances | Liste des objets d'instances actives actuellement planifiés. | Objet de référence, par exemple « ActiveInstances » : \$1"ref » : » myRunnableObject Id "\$1 | 
| @actualEndTime | Heure à laquelle l'exécution de l'objet s'est terminée. | DateTime | 
| @actualStartTime | Heure à laquelle l'exécution de l'objet a démarré. | DateTime | 
| cancellationReason | Motif de l'annulation si l'objet a été annulé. | String | 
| @cascadeFailedOn | Description de la chaîne de dépendances sur laquelle l'objet a échoué. | Objet de référence, par exemple "cascadeFailedOn« : \$1" ref » : » myRunnableObject Id "\$1 | 
| currentRetryCount | Nombre de fois où la condition préalable a été essayée dans la tentative. | String | 
| emrStepLog | Journaux d'étapes EMR disponibles uniquement sur les tentatives d'activité EMR | String | 
| errorId | ID de l'erreur si l'objet a échoué. | String | 
| errorMessage | errorMessage si l'objet a échoué. | String | 
| errorStackTrace | Suivi de la pile d'erreurs si l'objet a échoué. | String | 
| hadoopJobLog | Journaux de travail Hadoop disponibles sur les tentatives pour les activités EMR. | String | 
| hostname | Nom d'hôte du client qui a sélectionné la tentative de tâche. | String | 
| lastRetryTime | Dernière fois où la condition préalable a été essayée au sein de la tentative. | String | 
| nœud | Nœud pour lequel la condition préalable est en cours d'exécution | Objet de référence, par exemple « node » : \$1"ref » : » myRunnableObject Id "\$1 | 
| reportProgressTime | Heure la plus récente pour laquelle l'activité distante a signalé une progression. | DateTime | 
| @scheduledEndTime | Heure de fin planifiée pour l'objet. | DateTime | 
| @scheduledStartTime | Heure de début planifiée pour l'objet. | DateTime | 
| @État | État de l'objet. | String | 
| @Version | Version du pipeline avec laquelle l'objet été créé. | String | 
| @waitingOn | Description de la liste des dépendances sur laquelle l'objet est en attente. | Objet de référence, par exemple « WaitingOn » : \$1"ref » : » myRunnableObject Id "\$1 | 

 


****  

| Champs système | Description | Type d'option | 
| --- | --- | --- | 
| @error | Erreur décrivant l'objet mal formé. | String | 
| @pipelineId | ID du pipeline auquel l'objet appartient. | String | 
| @sphere | La sphère d'un objet désigne sa place dans le cycle de vie : les objets « composant » entraînent les objets « instance » qui exécutent les objets « tentative ». | String | 

# Dynamo existe DBTable
<a name="dp-dynamodbtableexists"></a>

 Une condition préalable pour vérifier l'existence de la table DynamoDB. 

## Syntaxe
<a name="dp-dynamodbtableexists-syntax"></a>


****  

| Champs obligatoires | Description | Type d'option | 
| --- | --- | --- | 
| rôle | Spécifie le rôle à utiliser pour exécuter la condition préalable. | String | 
| tableName | Table DynamoDB à vérifier. | String | 

 


****  

| Champs facultatifs | Description | Type d'option | 
| --- | --- | --- | 
| attemptStatus | État de l'activité à distance le plus récemment rapporté. | String | 
| attemptTimeout | Délai d'achèvement de la tâche à distance. Si une valeur est définie, une activité à distance qui n'est pas exécutée dans le cadre de la période de départ définie peut être retentée. | Period | 
| failureAndRerunMode | Décrit le comportement du nœud de consommateurs lorsque les dépendances échouent ou sont à nouveau exécutées. | Énumération | 
| lateAfterTimeout | Temps écoulé après le début du pipeline pendant lequel l'objet doit être terminé. Il est déclenché uniquement lorsque le type de planification n'est pas défini surondemand. | Period | 
| maximumRetries | Nombre maximal de nouvelles tentatives en cas d'échec | Entier | 
| onFail | Action à exécuter en cas d'échec de l'objet actuel. | Objet de référence, par exemple « onFail » : \$1"ref » : » myActionId «\$1 | 
| onLateAction | Actions à déclencher si un objet n'a pas encore été planifié ou n'est toujours pas terminé. | Objet de référence, par exemple "onLateAction« : \$1" ref » : » myActionId «\$1 | 
| onSuccess | Action à exécuter en cas de réussite de l'objet actuel. | Objet de référence, par exemple « onSuccess » : \$1"ref » : » myActionId «\$1 | 
| parent | Parent de l'objet actuel à partir duquel les emplacements sont hérités. | Objet de référence, par exemple « parent » : \$1"ref » : » myBaseObject Id "\$1 | 
| preconditionTimeout | Période depuis le démarrage après laquelle la condition préalable est marquée comme ayant échoué si elle n'est toujours pas satisfaite | Period | 
| reportProgressTimeout | Délai pour les appels successifs de travail à distance adressés à reportProgress. Si une valeur est définie, les activités à distance qui ne font pas état d'avancement pour la période spécifiée doivent être considérées comme bloquées et, par conséquent, retentées. | Period | 
| retryDelay | Délai entre deux nouvelles tentatives. | Period | 

 


****  

| Champs liés à l'exécution | Description | Type d'option | 
| --- | --- | --- | 
| @activeInstances | Liste des objets d'instances actives actuellement planifiés. | Objet de référence, par exemple « ActiveInstances » : \$1"ref » : » myRunnableObject Id "\$1 | 
| @actualEndTime | Heure à laquelle l'exécution de l'objet s'est terminée. | DateTime | 
| @actualStartTime | Heure à laquelle l'exécution de l'objet a démarré. | DateTime | 
| cancellationReason | Motif de l'annulation si l'objet a été annulé. | String | 
| @cascadeFailedOn | Description de la chaîne de dépendances sur laquelle l'objet a échoué. | Objet de référence, par exemple "cascadeFailedOn« : \$1" ref » : » myRunnableObject Id "\$1 | 
| currentRetryCount | Nombre de fois où la condition préalable a été essayée dans la tentative. | String | 
| emrStepLog | Journaux d'étapes EMR disponibles uniquement sur les tentatives d'activité EMR | String | 
| errorId | ID de l'erreur si l'objet a échoué. | String | 
| errorMessage | errorMessage si l'objet a échoué. | String | 
| errorStackTrace | Suivi de la pile d'erreurs si l'objet a échoué. | String | 
| hadoopJobLog | Journaux de travail Hadoop disponibles sur les tentatives pour les activités EMR. | String | 
| hostname | Nom d'hôte du client qui a sélectionné la tentative de tâche. | String | 
| lastRetryTime | Dernière fois où la condition préalable a été essayée au sein de la tentative. | String | 
| nœud | Nœud pour lequel la condition préalable est en cours d'exécution | Objet de référence, par exemple « node » : \$1"ref » : » myRunnableObject Id "\$1 | 
| reportProgressTime | Heure la plus récente pour laquelle l'activité distante a signalé une progression. | DateTime | 
| @scheduledEndTime | Heure de fin planifiée pour l'objet. | DateTime | 
| @scheduledStartTime | Heure de début planifiée pour l'objet. | DateTime | 
| @État | État de l'objet. | String | 
| @Version | Version du pipeline avec laquelle l'objet été créé. | String | 
| @waitingOn | Description de la liste des dépendances sur laquelle l'objet est en attente. | Objet de référence, par exemple « WaitingOn » : \$1"ref » : » myRunnableObject Id "\$1 | 

 


****  

| Champs système | Description | Type d'option | 
| --- | --- | --- | 
| @error | Erreur décrivant l'objet mal formé. | String | 
| @pipelineId | Id du pipeline auquel l'objet appartient. | String | 
| @sphere | La sphère d'un objet désigne sa place dans le cycle de vie : les objets « composant » entraînent les objets « instance » qui exécutent les objets « tentative » | String | 

# Existe
<a name="dp-object-exists"></a>

 Vérifie si un objet de nœud de données existe. 

**Note**  
Nous vous recommandons d'utiliser à la place les conditions préalables gérées par le système. Pour de plus amples informations, veuillez consulter [Conditions préalables](dp-concepts-preconditions.md).

## Exemple
<a name="exists-example"></a>

Voici un exemple de ce type d'objet. L'objet `InputData` référence cet objet, `Ready`, ainsi qu'un autre objet que vous pourriez définir dans le même fichier de définition du pipeline. `CopyPeriod` est un objet `Schedule`.

```
{
  "id" : "InputData",
  "type" : "S3DataNode",
  "schedule" : { "ref" : "CopyPeriod" },
  "filePath" : "s3://amzn-s3-demo-bucket/InputData/#{@scheduledStartTime.format('YYYY-MM-dd-hh:mm')}.csv",
  "precondition" : { "ref" : "Ready" }
},
{
  "id" : "Ready",
  "type" : "Exists"
}
```

## Syntaxe
<a name="exists-syntax"></a>


****  

| Champs facultatifs | Description | Type d'option | 
| --- | --- | --- | 
| attemptStatus | État de l'activité à distance le plus récemment rapporté. | String | 
| attemptTimeout | Délai d'achèvement de la tâche à distance. Si une valeur est définie, une activité à distance qui n'est pas exécutée dans le cadre de la période de départ définie peut être retentée. | Period | 
| failureAndRerunMode | Décrit le comportement du nœud de consommateurs lorsque les dépendances échouent ou sont à nouveau exécutées. | Énumération | 
| lateAfterTimeout | Temps écoulé après le début du pipeline pendant lequel l'objet doit être terminé. Il est déclenché uniquement lorsque le type de planification n'est pas défini surondemand. | Period | 
| maximumRetries | Nombre maximal de nouvelles tentatives en cas d'échec | Entier | 
| onFail | Action à exécuter en cas d'échec de l'objet actuel. | Objet de référence, par exemple « onFail » : \$1"ref » : » myActionId «\$1 | 
| onLateAction | Actions à déclencher si un objet n'a pas encore été planifié ou n'est toujours pas terminé. | Objet de référence, par exemple "onLateAction« : \$1" ref » : » myActionId «\$1 | 
| onSuccess | Action à exécuter en cas de réussite de l'objet actuel. | Objet de référence, par exemple « onSuccess » : \$1"ref » : » myActionId «\$1 | 
| parent | Parent de l'objet actuel à partir duquel les emplacements sont hérités. | Objet de référence, par exemple « parent » : \$1"ref » : » myBaseObject Id "\$1 | 
| preconditionTimeout | Période depuis le démarrage après laquelle la condition préalable est marquée comme ayant échoué si elle n'est toujours pas satisfaite | Period | 
| reportProgressTimeout | Délai pour les appels successifs de travail à distance adressés à reportProgress. Si une valeur est définie, les activités à distance qui ne font pas état d'avancement pour la période spécifiée doivent être considérées comme bloquées et, par conséquent, retentées. | Period | 
| retryDelay | Délai entre deux nouvelles tentatives. | Period | 

 


****  

| Champs liés à l'exécution | Description | Type d'option | 
| --- | --- | --- | 
| @activeInstances | Liste des objets d'instances actives actuellement planifiés. | Objet de référence, par exemple « ActiveInstances » : \$1"ref » : » myRunnableObject Id "\$1 | 
| @actualEndTime | Heure à laquelle l'exécution de l'objet s'est terminée. | DateTime | 
| @actualStartTime | Heure à laquelle l'exécution de l'objet a démarré. | DateTime | 
| cancellationReason | Motif de l'annulation si l'objet a été annulé. | String | 
| @cascadeFailedOn | Description de la chaîne de dépendances sur laquelle l'objet a échoué. | Objet de référence, par exemple "cascadeFailedOn« : \$1" ref » : » myRunnableObject Id "\$1 | 
| emrStepLog | Journaux d'étapes EMR disponibles uniquement sur les tentatives d'activité EMR | String | 
| errorId | ID de l'erreur si l'objet a échoué. | String | 
| errorMessage | errorMessage si l'objet a échoué. | String | 
| errorStackTrace | Suivi de la pile d'erreurs si l'objet a échoué. | String | 
| hadoopJobLog | Journaux de travail Hadoop disponibles sur les tentatives pour les activités EMR. | String | 
| hostname | Nom d'hôte du client qui a sélectionné la tentative de tâche. | String | 
| nœud | Nœud pour lequel la condition préalable est en cours d'exécution. | Objet de référence, par exemple « node » : \$1"ref » : » myRunnableObject Id "\$1 | 
| reportProgressTime | Heure la plus récente pour laquelle l'activité distante a signalé une progression. | DateTime | 
| @scheduledEndTime | Heure de fin planifiée pour l'objet. | DateTime | 
| @scheduledStartTime | Heure de début planifiée pour l'objet. | DateTime | 
| @État | État de l'objet. | String | 
| @Version | Version du pipeline avec laquelle l'objet été créé. | String | 
| @waitingOn | Description de la liste des dépendances sur laquelle l'objet est en attente. | Objet de référence, par exemple « WaitingOn » : \$1"ref » : » myRunnableObject Id "\$1 | 

 


****  

| Champs système | Description | Type d'option | 
| --- | --- | --- | 
| @error | Erreur décrivant l'objet mal formé. | String | 
| @pipelineId | Id du pipeline auquel l'objet appartient. | String | 
| @sphere | La sphère d'un objet désigne sa place dans le cycle de vie : les objets « composant » entraînent les objets « instance » qui exécutent les objets « tentative ». | String | 

## Voir aussi
<a name="exists-seealso"></a>
+ [ShellCommandPrecondition](dp-object-shellcommandprecondition.md)

# S3 KeyExists
<a name="dp-object-S3KeyExists"></a>

 Vérifie si une clé existe dans un nœud de données Amazon S3.

## Exemple
<a name="dp-object-S3KeyExists-example"></a>

Voici un exemple de ce type d'objet. La condition préalable se déclenche lorsqu'il existe une clé `s3://amzn-s3-demo-bucket/mykey`, référencée par le paramètre `s3Key`. 

```
{
"id" : "InputReady",
"type" : "S3KeyExists",
"role" : "test-role",
"s3Key" : "s3://amzn-s3-demo-bucket/mykey"
}
```

Vous pouvez également utiliser `S3KeyExists` en tant que condition préalable sur le second pipeline qui attend la fin de l'exécution du premier pipeline. Pour ce faire :

1. Écrivez un fichier sur Amazon S3 à la fin du premier pipeline.

1. Créez une condition préalable `S3KeyExists` sur le second pipeline.

## Syntaxe
<a name="S3KeyExists-syntax"></a>


****  

| Champs obligatoires | Description | Type d'option | 
| --- | --- | --- | 
| rôle | Spécifie le rôle à utiliser pour exécuter la condition préalable. | String | 
| s3Key | La clé Amazon S3. | String | 

 


****  

| Champs facultatifs | Description | Type d'option | 
| --- | --- | --- | 
| attemptStatus | État de l'activité à distance le plus récemment rapporté. | String | 
| attemptTimeout | Délai avant de tenter à nouveau de compléter la tâche à distance. Si une valeur est définie, toute activité à distance qui n'est pas exécutée pendant la période définie après le lancement fait l'objet d'une nouvelle tentative. | Period | 
| failureAndRerunMode | Décrit le comportement du nœud de consommateurs lorsque les dépendances échouent ou sont à nouveau exécutées. | Énumération | 
| lateAfterTimeout | Temps écoulé après le début du pipeline pendant lequel l'objet doit être terminé. Il est déclenché uniquement lorsque le type de planification n'est pas défini surondemand. | Period | 
| maximumRetries | Nombre maximum de tentatives initiées en cas d'échec. | Entier | 
| onFail | Action à exécuter en cas d'échec de l'objet actuel. | Objet de référence, par exemple « onFail » : \$1"ref » : » myActionId «\$1 | 
| onLateAction | Actions à déclencher si un objet n'a pas encore été planifié ou n'est toujours pas terminé. | Objet de référence, par exemple "onLateAction« : \$1" ref » : » myActionId «\$1 | 
| onSuccess | Action à exécuter en cas de réussite de l'objet actuel. | Objet de référence, par exemple « onSuccess » : \$1"ref » : » myActionId «\$1 | 
| parent | Parent de l'objet actuel à partir duquel les emplacements sont hérités. | Objet de référence, par exemple « parent » : \$1"ref » : » myBaseObject Id "\$1 | 
| preconditionTimeout | Période depuis le démarrage après laquelle la condition préalable est marquée comme ayant échoué si elle n'est toujours pas satisfaite. | Period | 
| reportProgressTimeout | Délai pour les appels successifs de travail à distance adressés à reportProgress. Si une valeur est définie, les activités à distance qui ne font pas état d'avancement pour la période spécifiée doivent être considérées comme bloquées et font l'objet d'une nouvelle tentative. | Period | 
| retryDelay | Délai entre deux tentative successives. | Period | 

 


****  

| Champs liés à l'exécution | Description | Type d'option | 
| --- | --- | --- | 
| @activeInstances | Liste des objets d'instances actives actuellement planifiés. | Objet de référence, par exemple « ActiveInstances » : \$1"ref » : » myRunnableObject Id "\$1 | 
| @actualEndTime | Heure à laquelle l'exécution de l'objet s'est terminée. | DateTime | 
| @actualStartTime | Heure à laquelle l'exécution de l'objet a démarré. | DateTime | 
| cancellationReason | Motif de l'annulation si l'objet a été annulé. | String | 
| @cascadeFailedOn | Description de la chaîne de dépendances sur laquelle l'objet a échoué. | Objet de référence, par exemple "cascadeFailedOn« : \$1" ref » : » myRunnableObject Id "\$1 | 
| currentRetryCount | Nombre de fois où la condition préalable a été essayée dans la tentative. | String | 
| emrStepLog | Journaux d'étapes EMR disponibles uniquement sur les tentatives d'activité EMR | String | 
| errorId | ID de l'erreur si l'objet a échoué. | String | 
| errorMessage | errorMessage si l'objet a échoué. | String | 
| errorStackTrace | Suivi de la pile d'erreurs si l'objet a échoué. | String | 
| hadoopJobLog | Journaux de travail Hadoop disponibles sur les tentatives pour les activités EMR. | String | 
| hostname | Nom d'hôte du client qui a sélectionné la tentative de tâche. | String | 
| lastRetryTime | Dernière fois où la condition préalable a été essayée au sein de la tentative. | String | 
| nœud | Nœud pour lequel la condition préalable est en cours d'exécution | Objet de référence, par exemple « node » : \$1"ref » : » myRunnableObject Id "\$1 | 
| reportProgressTime | Heure la plus récente pour laquelle l'activité distante a signalé une progression. | DateTime | 
| @scheduledEndTime | Heure de fin planifiée pour l'objet. | DateTime | 
| @scheduledStartTime | Heure de début planifiée pour l'objet. | DateTime | 
| @État | État de l'objet. | String | 
| @Version | Version du pipeline avec laquelle l'objet été créé. | String | 
| @waitingOn | Description de la liste des dépendances sur laquelle l'objet est en attente. | Objet de référence, par exemple « WaitingOn » : \$1"ref » : » myRunnableObject Id "\$1 | 

 


****  

| Champs système | Description | Type d'option | 
| --- | --- | --- | 
| @error | Erreur décrivant l'objet mal formé. | String | 
| @pipelineId | Id du pipeline auquel l'objet appartient. | String | 
| @sphere | La sphère d'un objet désigne sa place dans le cycle de vie : les objets « composant » entraînent les objets « instance » qui exécutent les objets « tentative » | String | 

## Voir aussi
<a name="S3KeyExists-seealso"></a>
+ [ShellCommandPrecondition](dp-object-shellcommandprecondition.md)

# S3 PrefixNotEmpty
<a name="dp-object-s3prefixnotempty"></a>

Une condition préalable pour vérifier que les objets Amazon S3 avec le préfixe donné (représenté sous forme d'URI) sont présents.

## Exemple
<a name="s3prefixnotempty-example"></a>

Voici un exemple de ce type d'objet à l'aide de champs obligatoires, de champs facultatifs et de champs d'expression.

```
{
  "id" : "InputReady",
  "type" : "S3PrefixNotEmpty",
  "role" : "test-role",
  "s3Prefix" : "#{node.filePath}"
}
```

## Syntaxe
<a name="s3prefixnotempty-syntax"></a>


****  

| Champs obligatoires | Description | Type d'option | 
| --- | --- | --- | 
| rôle | Spécifie le rôle à utiliser pour exécuter la condition préalable. | String | 
| s3Prefix | Le préfixe Amazon S3 pour vérifier l'existence d'objets. | String | 

 


****  

| Champs facultatifs | Description | Type d'option | 
| --- | --- | --- | 
| attemptStatus | État de l'activité à distance le plus récemment rapporté. | String | 
| attemptTimeout | Délai d'achèvement de la tâche à distance. Si une valeur est définie, une activité à distance qui n'est pas exécutée dans le cadre de la période de départ définie peut être retentée. | Period | 
| failureAndRerunMode | Décrit le comportement du nœud de consommateurs lorsque les dépendances échouent ou sont à nouveau exécutées. | Énumération | 
| lateAfterTimeout | Temps écoulé après le début du pipeline pendant lequel l'objet doit être terminé. Il est déclenché uniquement lorsque le type de planification n'est pas défini surondemand. | Period | 
| maximumRetries | Nombre maximal de nouvelles tentatives en cas d'échec | Entier | 
| onFail | Action à exécuter en cas d'échec de l'objet actuel. | Objet de référence, par exemple « onFail » : \$1"ref » : » myActionId «\$1 | 
| onLateAction | Actions à déclencher si un objet n'a pas encore été planifié ou n'est toujours pas terminé. | Objet de référence, par exemple "onLateAction« : \$1" ref » : » myActionId «\$1 | 
| onSuccess | Action à exécuter en cas de réussite de l'objet actuel. | Objet de référence, par exemple « onSuccess » : \$1"ref » : » myActionId «\$1 | 
| parent | Parent de l'objet actuel à partir duquel les emplacements sont hérités. | Objet de référence, par exemple « parent » : \$1"ref » : » myBaseObject Id "\$1 | 
| preconditionTimeout | Période depuis le démarrage après laquelle la condition préalable est marquée comme ayant échoué si elle n'est toujours pas satisfaite | Period | 
| reportProgressTimeout | Délai pour les appels successifs de travail à distance adressés à reportProgress. Si une valeur est définie, les activités à distance qui ne font pas état d'avancement pour la période spécifiée doivent être considérées comme bloquées et, par conséquent, retentées. | Period | 
| retryDelay | Délai entre deux nouvelles tentatives. | Period | 

 


****  

| Champs liés à l'exécution | Description | Type d'option | 
| --- | --- | --- | 
| @activeInstances | Liste des objets d'instances actives actuellement planifiés. | Objet de référence, par exemple « ActiveInstances » : \$1"ref » : » myRunnableObject Id "\$1 | 
| @actualEndTime | Heure à laquelle l'exécution de l'objet s'est terminée. | DateTime | 
| @actualStartTime | Heure à laquelle l'exécution de l'objet a démarré. | DateTime | 
| cancellationReason | Motif de l'annulation si l'objet a été annulé. | String | 
| @cascadeFailedOn | Description de la chaîne de dépendances sur laquelle l'objet a échoué. | Objet de référence, par exemple "cascadeFailedOn« : \$1" ref » : » myRunnableObject Id "\$1 | 
| currentRetryCount | Nombre de fois où la condition préalable a été essayée dans la tentative. | String | 
| emrStepLog | Journaux d'étapes EMR disponibles uniquement sur les tentatives d'activité EMR | String | 
| errorId | ID de l'erreur si l'objet a échoué. | String | 
| errorMessage | errorMessage si l'objet a échoué. | String | 
| errorStackTrace | Suivi de la pile d'erreurs si l'objet a échoué. | String | 
| hadoopJobLog | Journaux de travail Hadoop disponibles sur les tentatives pour les activités EMR. | String | 
| hostname | Nom d'hôte du client qui a sélectionné la tentative de tâche. | String | 
| lastRetryTime | Dernière fois où la condition préalable a été essayée au sein de la tentative. | String | 
| nœud | Nœud pour lequel la condition préalable est en cours d'exécution. | Objet de référence, par exemple « node » : \$1"ref » : » myRunnableObject Id "\$1 | 
| reportProgressTime | Heure la plus récente pour laquelle l'activité distante a signalé une progression. | DateTime | 
| @scheduledEndTime | Heure de fin planifiée pour l'objet. | DateTime | 
| @scheduledStartTime | Heure de début planifiée pour l'objet. | DateTime | 
| @État | État de l'objet. | String | 
| @Version | Version du pipeline avec laquelle l'objet été créé. | String | 
| @waitingOn | Description de la liste des dépendances sur laquelle l'objet est en attente. | Objet de référence, par exemple « WaitingOn » : \$1"ref » : » myRunnableObject Id "\$1 | 

 


****  

| Champs système | Description | Type d'option | 
| --- | --- | --- | 
| @error | Erreur décrivant l'objet mal formé. | String | 
| @pipelineId | Id du pipeline auquel l'objet appartient. | String | 
| @sphere | La sphère d'un objet désigne sa place dans le cycle de vie : les objets « composant » entraînent les objets « instance » qui exécutent les objets « tentative » | String | 

## Voir aussi
<a name="s3prefixnotempty-seealso"></a>
+ [ShellCommandPrecondition](dp-object-shellcommandprecondition.md)

# ShellCommandPrecondition
<a name="dp-object-shellcommandprecondition"></a>

 Une commande Unix/Linux shell qui peut être exécutée comme condition préalable. 

## Exemple
<a name="shellcommandprecondition-example"></a>

Voici un exemple de ce type d'objet.

```
{
  "id" : "VerifyDataReadiness",
  "type" : "ShellCommandPrecondition",
  "command" : "perl check-data-ready.pl"
}
```

## Syntaxe
<a name="shellcommandprecondition-syntax"></a>


****  

| Groupe obligatoire (l'un des groupes suivants est obligatoire) | Description | Type d'option | 
| --- | --- | --- | 
| command | Commande à exécuter. Cette valeur et les paramètres associés doivent fonctionner dans l'environnement à partir duquel vous lancez l'exécuteur de tâches. | String | 
| scriptUri | Chemin d'accès par URI Amazon S3 d'un fichier à télécharger et à exécuter en tant que commande shell. Un seul champ scriptUri ou command doit être présent. Étant donné que le champ scriptUri ne peut pas utiliser de paramètres, utilisez plutôt command. | String | 

 


****  

| Champs facultatifs | Description | Type d'option | 
| --- | --- | --- | 
| attemptStatus | État de l'activité à distance le plus récemment rapporté. | String | 
| attemptTimeout | Délai d'achèvement de la tâche à distance. Si une valeur est définie, une activité à distance qui n'est pas exécutée dans le cadre de la période de départ définie peut être retentée. | Period | 
| failureAndRerunMode | Décrit le comportement du nœud de consommateurs lorsque les dépendances échouent ou sont à nouveau exécutées. | Énumération | 
| lateAfterTimeout | Temps écoulé après le début du pipeline pendant lequel l'objet doit être terminé. Il est déclenché uniquement lorsque le type de planification n'est pas défini surondemand. | Period | 
| maximumRetries | Nombre maximal de nouvelles tentatives en cas d'échec | Entier | 
| onFail | Action à exécuter en cas d'échec de l'objet actuel. | Objet de référence, par exemple « onFail » : \$1"ref » : » myActionId «\$1 | 
| onLateAction | Actions à déclencher si un objet n'a pas encore été planifié ou n'est toujours pas terminé. | Objet de référence, par exemple "onLateAction« : \$1" ref » : » myActionId «\$1 | 
| onSuccess | Action à exécuter en cas de réussite de l'objet actuel. | Objet de référence, par exemple « onSuccess » : \$1"ref » : » myActionId «\$1 | 
| parent | Parent de l'objet actuel à partir duquel les emplacements sont hérités. | Objet de référence, par exemple « parent » : \$1"ref » : » myBaseObject Id "\$1 | 
| preconditionTimeout | Période depuis le démarrage après laquelle la condition préalable est marquée comme ayant échoué si elle n'est toujours pas satisfaite | Period | 
| reportProgressTimeout | Délai pour les appels successifs de travail à distance adressés à reportProgress. Si une valeur est définie, les activités à distance qui ne font pas état d'avancement pour la période spécifiée doivent être considérées comme bloquées et, par conséquent, retentées. | Period | 
| retryDelay | Délai entre deux nouvelles tentatives. | Period | 
| scriptArgument | Argument à transmettre au script shell. | String | 
| stderr | Le chemin Amazon S3 qui reçoit les messages d'erreur système redirigés depuis la commande. Si vous utilisez ce runsOn champ, il doit s'agir d'un chemin Amazon S3 en raison de la nature transitoire de la ressource exécutant votre activité. Toutefois, si vous spécifiez le champ workerGroup, un chemin de fichier local est autorisé. | String | 
| stdout | Le chemin Amazon S3 qui reçoit la sortie redirigée de la commande. Si vous utilisez ce runsOn champ, il doit s'agir d'un chemin Amazon S3 en raison de la nature transitoire de la ressource exécutant votre activité. Toutefois, si vous spécifiez le champ workerGroup, un chemin de fichier local est autorisé. | String | 

 


****  

| Champs liés à l'exécution | Description | Type d'option | 
| --- | --- | --- | 
| @activeInstances | Liste des objets d'instances actives actuellement planifiés. | Objet de référence, par exemple « ActiveInstances » : \$1"ref » : » myRunnableObject Id "\$1 | 
| @actualEndTime | Heure à laquelle l'exécution de l'objet s'est terminée. | DateTime | 
| @actualStartTime | Heure à laquelle l'exécution de l'objet a démarré. | DateTime | 
| cancellationReason | Motif de l'annulation si l'objet a été annulé. | String | 
| @cascadeFailedOn | Description de la chaîne de dépendances sur laquelle l'objet a échoué. | Objet de référence, par exemple "cascadeFailedOn« : \$1" ref » : » myRunnableObject Id "\$1 | 
| emrStepLog | Journaux d'étapes EMR disponibles uniquement sur les tentatives d'activité EMR | String | 
| errorId | ID de l'erreur si l'objet a échoué. | String | 
| errorMessage | errorMessage si l'objet a échoué. | String | 
| errorStackTrace | Suivi de la pile d'erreurs si l'objet a échoué. | String | 
| hadoopJobLog | Journaux de travail Hadoop disponibles sur les tentatives pour les activités EMR. | String | 
| hostname | Nom d'hôte du client qui a sélectionné la tentative de tâche. | String | 
| nœud | Nœud pour lequel la condition préalable est en cours d'exécution | Objet de référence, par exemple « node » : \$1"ref » : » myRunnableObject Id "\$1 | 
| reportProgressTime | Heure la plus récente pour laquelle l'activité distante a signalé une progression. | DateTime | 
| @scheduledEndTime | Heure de fin planifiée pour l'objet. | DateTime | 
| @scheduledStartTime | Heure de début planifiée pour l'objet. | DateTime | 
| @État | État de l'objet. | String | 
| @Version | Version du pipeline avec laquelle l'objet été créé. | String | 
| @waitingOn | Description de la liste des dépendances sur laquelle l'objet est en attente. | Objet de référence, par exemple « WaitingOn » : \$1"ref » : » myRunnableObject Id "\$1 | 

 


****  

| Champs système | Description | Type d'option | 
| --- | --- | --- | 
| @error | Erreur décrivant l'objet mal formé. | String | 
| @pipelineId | Id du pipeline auquel l'objet appartient. | String | 
| @sphere | La sphère d'un objet désigne sa place dans le cycle de vie : les objets « composant » entraînent les objets « instance » qui exécutent les objets « tentative » | String | 

## Voir aussi
<a name="shellcommandprecondition-seealso"></a>
+ [ShellCommandActivity](dp-object-shellcommandactivity.md)
+ [Existe](dp-object-exists.md)

# Bases de données
<a name="dp-object-databases"></a>

Les objets de AWS Data Pipeline base de données sont les suivants :

**Topics**
+ [JdbcDatabase](dp-object-jdbcdatabase.md)
+ [RdsDatabase](dp-object-rdsdatabase.md)
+ [RedshiftDatabase](dp-object-redshiftdatabase.md)

# JdbcDatabase
<a name="dp-object-jdbcdatabase"></a>

Définit une base de données JDBC.

## Exemple
<a name="jdbcdatabase-example"></a>

Voici un exemple de ce type d'objet.

```
{
  "id" : "MyJdbcDatabase",
  "type" : "JdbcDatabase",
  "connectionString" : "jdbc:redshift://hostname:portnumber/dbname",
  "jdbcDriverClass" : "com.amazon.redshift.jdbc41.Driver",
  "jdbcDriverJarUri" : "s3://redshift-downloads/drivers/RedshiftJDBC41-1.1.6.1006.jar",
  "username" : "user_name",
  "*password" : "my_password"
}
```

## Syntaxe
<a name="jdbcdatabase-syntax"></a>


****  

| Champs obligatoires | Description | Type d'option | 
| --- | --- | --- | 
| connectionChaîne | Chaîne de connexion JDBC permettant d'accéder à la base de données. | String | 
| jdbcDriverClass | Classe de pilote à charger avant d'établir la connexion JDBC. | String | 
| \$1password | Mot de passe à fournir. | String | 
| nom d’utilisateur | Nom d'utilisateur à fournir lors de la connexion à la base de données. | String | 

 


****  

| Champs facultatifs | Description | Type d'option | 
| --- | --- | --- | 
| databaseName | Nom de la base de données logique à laquelle s'attacher. | String | 
| jdbcDriverJarUri | Emplacement dans Amazon S3 du fichier JAR du pilote JDBC utilisé pour se connecter à la base de données. AWS Data Pipeline doit avoir l'autorisation de lire le fichier JAR. | String | 
| jdbcProperties | Paires sous la forme A = B qui seront définies comme propriétés sur les connexions JDBC de la base de données. | String | 
| parent | Parent de l'objet actuel à partir duquel les emplacements sont hérités. | Objet de référence, par exemple « parent » : \$1"ref » : » myBaseObject Id "\$1 | 

 


****  

| Champs liés à l'exécution | Description | Type d'option | 
| --- | --- | --- | 
| @Version | Version du pipeline avec laquelle l'objet a été créé. | String | 

 


****  

| Champs système | Description | Type d'option | 
| --- | --- | --- | 
| @error | Erreur décrivant l'objet mal formé. | String | 
| @pipelineId | ID du pipeline auquel l'objet appartient. | String | 
| @sphere | La sphère d'un objet désigne sa place dans le cycle de vie : les objets « composant » entraînent les objets « instance » qui exécutent les objets « tentative ». | String | 

# RdsDatabase
<a name="dp-object-rdsdatabase"></a>

Définit une base de données Amazon RDS.

**Note**  
RdsDatabase ne prend pas en charge Aurora. [JdbcDatabase](dp-object-jdbcdatabase.md)Utilisez-le plutôt pour Aurora.

## Exemple
<a name="rdsdatabase-example"></a>

Voici un exemple de ce type d'objet.

```
{
  "id" : "MyRdsDatabase",
  "type" : "RdsDatabase",
  "region" : "us-east-1",
  "username" : "user_name",
  "*password" : "my_password",
  "rdsInstanceId" : "my_db_instance_identifier"
}
```

Pour le moteur Oracle, le champ `jdbcDriverJarUri` est obligatoire et vous pouvez spécifier le pilote suivant : `http://www.oracle.com/technetwork/database/features/jdbc/jdbc-drivers-12c-download-1958347.html`. Pour le moteur SQL Server, le champ `jdbcDriverJarUri` est obligatoire et vous pouvez spécifier le pilote suivant : `https://www.microsoft.com/en-us/download/details.aspx?displaylang=en&id=11774`. Pour les moteurs MySQL et PostgreSQL, le champ `jdbcDriverJarUri` est facultatif.

## Syntaxe
<a name="rdsdatabase-syntax"></a>


****  

| Champs obligatoires | Description | Type d'option | 
| --- | --- | --- | 
| \$1password | Mot de passe à fournir. | String | 
| rdsInstanceId | DBInstanceIdentifierPropriété de l'instance de base de données. | String | 
| nom d’utilisateur | Nom d'utilisateur à fournir lors de la connexion à la base de données. | String | 

 


****  

| Champs facultatifs | Description | Type d'option | 
| --- | --- | --- | 
| databaseName | Nom de la base de données logique à laquelle s'attacher. | String | 
| jdbcDriverJarUri | Emplacement dans Amazon S3 du fichier JAR du pilote JDBC utilisé pour se connecter à la base de données. AWS Data Pipeline doit avoir l'autorisation de lire le fichier JAR. Pour les moteurs MySQL et PostgreSQL, le pilote par défaut est utilisé si ce champ n'est pas spécifié, mais vous pouvez remplacer la valeur par défaut à l'aide de ce champ. Pour les moteurs Oracle et SQL Server, ce champ est obligatoire. | String | 
| jdbcProperties | Paires sous la forme A = B qui seront définies comme propriétés sur les connexions JDBC de la base de données. | String | 
| parent | Parent de l'objet actuel à partir duquel les emplacements sont hérités. | Objet de référence, par exemple, « parent » : \$1"ref » : » myBaseObject Id "\$1 | 
| region | Code de la région où se trouve la base de données. Par exemple, us-east-1. | String | 

 


****  

| Champs liés à l'exécution | Description | Type d'option | 
| --- | --- | --- | 
| @Version | Version du pipeline avec laquelle l'objet a été créé. | String | 

 


****  

| Champs système | Description | Type d'option | 
| --- | --- | --- | 
| @error | Erreur décrivant l'objet mal formé. | String | 
| @pipelineId | ID du pipeline auquel l'objet appartient. | String | 
| @sphere | La sphère d'un objet désigne sa place dans le cycle de vie : les objets « composant » entraînent les objets « instance » qui exécutent les objets « tentative ». | String | 

# RedshiftDatabase
<a name="dp-object-redshiftdatabase"></a>

Définit une base de données Amazon Redshift. `RedshiftDatabase`représente les propriétés de la base de données utilisée par votre pipeline.

## Exemple
<a name="redshiftdatabase-example"></a>

Voici un exemple de ce type d'objet.

```
{
  "id" : "MyRedshiftDatabase",
  "type" : "RedshiftDatabase",
  "clusterId" : "myRedshiftClusterId",
  "username" : "user_name",
  "*password" : "my_password",
  "databaseName" : "database_name"
}
```

Par défaut, l'objet utilise le pilote Postgres, qui nécessite le champ `clusterId`. Pour utiliser le pilote Amazon Redshift, spécifiez plutôt la chaîne de connexion à la base de données Amazon Redshift depuis la console Amazon Redshift (qui commence par « jdbc:redshift : ») dans le champ. `connectionString`

## Syntaxe
<a name="redshiftdatabase-syntax"></a>


****  

| Champs obligatoires | Description | Type d'option | 
| --- | --- | --- | 
| \$1password | Mot de passe à fournir. | String | 
| nom d’utilisateur | Nom d'utilisateur à fournir lors de la connexion à la base de données. | String | 

 


****  

| Groupe obligatoire (l'un des groupes suivants est obligatoire) | Description | Type d'option | 
| --- | --- | --- | 
| clusterId | L'identifiant fourni par l'utilisateur lors de la création du cluster Amazon Redshift. Par exemple, si le point de terminaison de votre cluster Amazon Redshift est mydb.example.us-east-1.redshift.amazonaws.com, l'identifiant correct est. mydb Dans la console Amazon Redshift, vous pouvez obtenir cette valeur à partir des champs Cluster Identifier ou Cluster Name. | String | 
| connectionChaîne | Point de terminaison JDBC permettant de se connecter à une instance Amazon Redshift détenue par un compte différent du pipeline. Vous ne pouvez pas spécifier à la fois connectionString et clusterId. | String | 

 


****  

| Champs facultatifs | Description | Type d'option | 
| --- | --- | --- | 
| databaseName | Nom de la base de données logique à laquelle s'attacher. | String | 
| jdbcProperties | Paires sous la forme A = B qui sont définies comme propriétés sur les connexions JDBC de la base de données. | String | 
| parent | Parent de l'objet actuel à partir duquel les emplacements sont hérités. | Objet de référence, par exemple, « parent » : \$1"ref » : » myBaseObject Id "\$1 | 
| region | Code de la région où se trouve la base de données. Par exemple, us-east-1. | Énumération | 

 


****  

| Champs liés à l'exécution | Description | Type d'option | 
| --- | --- | --- | 
| @Version | Version du pipeline avec laquelle l'objet a été créé. | String | 

 


****  

| Champs système | Description | Type d'option | 
| --- | --- | --- | 
| @error | Erreur décrivant l'objet mal formé. | String | 
| @pipelineId | ID du pipeline auquel l'objet appartient. | String | 
| @sphere | La sphère d'un objet désigne sa place dans le cycle de vie : les objets « composant » entraînent les objets « instance » qui exécutent les objets « tentative ». | String | 

# Formats de données
<a name="dp-object-dataformats"></a>

Les objets de format de AWS Data Pipeline données sont les suivants :

**Topics**
+ [Format de données CSV](dp-object-csv.md)
+ [Format de données personnalisé](dp-object-custom.md)
+ [Format Dynamo DBData](dp-object-dynamodbdataformat.md)
+ [Dynamo DBExport DataFormat](dp-object-dynamodbexportdataformat.md)
+ [RegEx Format des données](dp-object-regex.md)
+ [Format de données TSV](dp-object-tsv.md)

# Format de données CSV
<a name="dp-object-csv"></a>

Format de données séparées par des virgules dans lequel le séparateur de colonnes est une virgule et le séparateur d'enregistrements un caractère de nouvelle ligne.

## Exemple
<a name="csv-example"></a>

Voici un exemple de ce type d'objet. 

```
{
  "id" : "MyOutputDataType",
  "type" : "CSV",
  "column" : [
    "Name STRING",
    "Score INT",
    "DateOfBirth TIMESTAMP"
  ]
}
```

## Syntaxe
<a name="csv-syntax"></a>


****  

| Champs facultatifs | Description | Type d'option | 
| --- | --- | --- | 
| column | Nom de colonne avec le type de données spécifié par chaque champ pour les données décrites par ce nœud de données. Exemple : nom d'hôte STRING. Pour plusieurs valeurs, utilisez les noms de colonnes et les types de données séparés par un espace. | String | 
| escapeChar | Caractère (\$1, par exemple) qui indique à l'analyseur d'ignorer le caractère suivant. | String | 
| parent | Parent de l'objet actuel à partir duquel les emplacements sont hérités. | Objet de référence, par exemple « parent » : \$1"ref » : » myBaseObject Id "\$1 | 

 


****  

| Champs liés à l'exécution | Description | Type d'option | 
| --- | --- | --- | 
| @Version | Version du pipeline avec laquelle l'objet été créé. | String | 

 


****  

| Champs système | Description | Type d'option | 
| --- | --- | --- | 
| @error | Erreur décrivant l'objet mal formé. | String | 
| @pipelineId | Id du pipeline auquel l'objet appartient. | String | 
| @sphere | La sphère d'un objet désigne sa place dans le cycle de vie : les objets « composant » entraînent les objets « instance » qui exécutent les objets « tentative » | String | 

# Format de données personnalisé
<a name="dp-object-custom"></a>

Format de données personnalisé défini par la combinaison d'un séparateur de colonnes, d'un séparateur d'enregistrements et du caractère d'échappement.

## Exemple
<a name="custom-example"></a>

Voici un exemple de ce type d'objet. 

```
{
  "id" : "MyOutputDataType",
  "type" : "Custom",
  "columnSeparator" : ",",
  "recordSeparator" : "\n",
  "column" : [
    "Name STRING",
    "Score INT",
    "DateOfBirth TIMESTAMP"
  ]
}
```

## Syntaxe
<a name="custom-syntax"></a>


****  

| Champs obligatoires | Description | Type d'option | 
| --- | --- | --- | 
| columnSeparator | Caractère qui indique la fin d'une colonne dans un fichier de données. | String | 

 


****  

| Champs facultatifs | Description | Type d'option | 
| --- | --- | --- | 
| column | Nom de colonne avec le type de données spécifié par chaque champ pour les données décrites par ce nœud de données. Exemple : nom d'hôte STRING. Pour plusieurs valeurs, utilisez les noms de colonnes et les types de données séparés par un espace. | String | 
| parent | Parent de l'objet actuel à partir duquel les emplacements sont hérités. | Objet de référence, par exemple « parent » : \$1"ref » : » myBaseObject Id "\$1 | 
| recordSeparator | Caractère qui indique la fin d'une ligne dans un fichier de données, par exemple \$1n. Seuls les caractères uniques sont pris en charge. | String | 

 


****  

| Champs liés à l'exécution | Description | Type d'option | 
| --- | --- | --- | 
| @Version | Version du pipeline avec laquelle l'objet été créé. | String | 

 


****  

| Champs système | Description | Type d'option | 
| --- | --- | --- | 
| @error | Erreur décrivant l'objet mal formé. | String | 
| @pipelineId | Id du pipeline auquel l'objet appartient. | String | 
| @sphere | La sphère d'un objet désigne sa place dans le cycle de vie : les objets « composant » entraînent les objets « instance » qui exécutent les objets « tentative » | String | 

# Format Dynamo DBData
<a name="dp-object-dynamodbdataformat"></a>

Applique un schéma à une table DynamoDB pour la rendre accessible par une requête Hive. `DynamoDBDataFormat`est utilisé avec un `HiveActivity` objet et une `DynamoDBDataNode` entrée et une sortie. `DynamoDBDataFormat`nécessite que vous spécifiiez toutes les colonnes de votre requête Hive. Pour plus de flexibilité dans la spécification de certaines colonnes dans une requête Hive ou pour le support Amazon S3, consultez[Dynamo DBExport DataFormat](dp-object-dynamodbexportdataformat.md).

**Note**  
Les types booléens DynamoDB ne sont pas mappés aux types booléens Hive. Cependant, il est possible de mapper les valeurs entières DynamoDB de 0 ou 1 avec les types booléens Hive.

## Exemple
<a name="dynamodbdataformat-example"></a>

L'exemple suivant montre comment utiliser `DynamoDBDataFormat` pour attribuer un schéma à une entrée `DynamoDBDataNode`, qui permet à un objet `HiveActivity` d'accéder aux données par colonnes nommées et de copier les données vers une sortie `DynamoDBDataNode`. 

```
{
  "objects": [
    {
      "id" : "Exists.1",
      "name" : "Exists.1",
      "type" : "Exists"
    },
    {
      "id" : "DataFormat.1",
      "name" : "DataFormat.1",
      "type" : "DynamoDBDataFormat",
      "column" : [ 
         "hash STRING", 
        "range STRING" 
      ]
    },
    {
      "id" : "DynamoDBDataNode.1",
      "name" : "DynamoDBDataNode.1",
      "type" : "DynamoDBDataNode",
      "tableName" : "$INPUT_TABLE_NAME",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.1" }
    },
    {
      "id" : "DynamoDBDataNode.2",
      "name" : "DynamoDBDataNode.2",
      "type" : "DynamoDBDataNode",
      "tableName" : "$OUTPUT_TABLE_NAME",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.1" }
    },
    {
      "id" : "EmrCluster.1",
      "name" : "EmrCluster.1",
      "type" : "EmrCluster",
      "schedule" : { "ref" : "ResourcePeriod" },
      "masterInstanceType" : "m1.small",
      "keyPair" : "$KEYPAIR"
    },
    {
      "id" : "HiveActivity.1",
      "name" : "HiveActivity.1",
      "type" : "HiveActivity",
      "input" : { "ref" : "DynamoDBDataNode.1" },
      "output" : { "ref" : "DynamoDBDataNode.2" },
      "schedule" : { "ref" : "ResourcePeriod" },
      "runsOn" : { "ref" : "EmrCluster.1" },
      "hiveScript" : "insert overwrite table ${output1} select * from ${input1} ;"
    },
    {
      "id" : "ResourcePeriod",
      "name" : "ResourcePeriod",
      "type" : "Schedule",
      "period" : "1 day",
      "startDateTime" : "2012-05-04T00:00:00",
      "endDateTime" : "2012-05-05T00:00:00"
    }
  ]
}
```

## Syntaxe
<a name="dynamodbdataformat-syntax"></a>


****  

| Champs facultatifs | Description | Type d'option | 
| --- | --- | --- | 
| column | Nom de colonne avec le type de données spécifié par chaque champ pour les données décrites par ce nœud de données. Par exemple, hostname STRING. Pour plusieurs valeurs, utilisez des noms de colonnes et des types de données séparés par un espace. | String | 
| parent | Parent de l'objet actuel à partir duquel les emplacements sont hérités. | Objet de référence, tel que « parent » : \$1"ref » : » myBaseObject Id "\$1 | 

 


****  

| Champs liés à l'exécution | Description | Type d'option | 
| --- | --- | --- | 
| @Version | Version de pipeline utilisée pour créer l'objet. | String | 

 


****  

| Champs système | Description | Type d'option | 
| --- | --- | --- | 
| @error | Erreur décrivant l'objet mal formé. | String | 
| @pipelineId | ID du pipeline auquel l'objet appartient. | String | 
| @sphere | La sphère d'un objet désigne sa place dans le cycle de vie : les objets « composant » entraînent les objets « instance » qui exécutent les objets « tentative ». | String | 

# Dynamo DBExport DataFormat
<a name="dp-object-dynamodbexportdataformat"></a>

Applique un schéma à une table DynamoDB pour la rendre accessible par une requête Hive. Utilisez `DynamoDBExportDataFormat` avec un objet `HiveCopyActivity`, et une entrée et une sortie `DynamoDBDataNode` ou `S3DataNode`. `DynamoDBExportDataFormat` offre les avantages suivants : 
+ Fournit le support de DynamoDB et d'Amazon S3
+ Permet de filtrer des données sur certaines colonnes dans votre requête Hive.
+ Exporte tous les attributs depuis DynamoDB même si vous avez un schéma fragmenté

**Note**  
Les types booléens DynamoDB ne sont pas mappés aux types booléens Hive. Cependant, il est possible de mapper les valeurs entières DynamoDB de 0 ou 1 avec les types booléens Hive.

## Exemple
<a name="dynamodbexportdataformat-example"></a>

L'exemple suivant montre comment utiliser `HiveCopyActivity` et `DynamoDBExportDataFormat` pour copier les données d'un `DynamoDBDataNode` dans un autre, tout en filtrant les données en fonction de l'horodatage.

```
{
  "objects": [
    {
      "id" : "DataFormat.1",
      "name" : "DataFormat.1",
      "type" : "DynamoDBExportDataFormat",
      "column" : "timeStamp BIGINT"
    },
    {
      "id" : "DataFormat.2",
      "name" : "DataFormat.2",
      "type" : "DynamoDBExportDataFormat"
    },
    {
      "id" : "DynamoDBDataNode.1",
      "name" : "DynamoDBDataNode.1",
      "type" : "DynamoDBDataNode",
      "tableName" : "item_mapped_table_restore_temp",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.1" }
    },
    {
      "id" : "DynamoDBDataNode.2",
      "name" : "DynamoDBDataNode.2",
      "type" : "DynamoDBDataNode",
      "tableName" : "restore_table",
      "region" : "us_west_1",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.2" }
    },
    {
      "id" : "EmrCluster.1",
      "name" : "EmrCluster.1",
      "type" : "EmrCluster",
      "schedule" : { "ref" : "ResourcePeriod" },
      "masterInstanceType" : "m1.xlarge",
      "coreInstanceCount" : "4"
    },
    {
      "id" : "HiveTransform.1",
      "name" : "Hive Copy Transform.1",
      "type" : "HiveCopyActivity",
      "input" : { "ref" : "DynamoDBDataNode.1" },
      "output" : { "ref" : "DynamoDBDataNode.2" },
      "schedule" : { "ref" : "ResourcePeriod" },
      "runsOn" : { "ref" : "EmrCluster.1" },
      "filterSql" : "`timeStamp` > unix_timestamp(\"#{@scheduledStartTime}\", \"yyyy-MM-dd'T'HH:mm:ss\")"
    },
    {
      "id" : "ResourcePeriod",
      "name" : "ResourcePeriod",
      "type" : "Schedule",
      "period" : "1 Hour",
      "startDateTime" : "2013-06-04T00:00:00",
      "endDateTime" : "2013-06-04T01:00:00"
    }
  ]
}
```

## Syntaxe
<a name="dynamodbexportdataformat-syntax"></a>


****  

| Champs facultatifs | Description | Type d'option | 
| --- | --- | --- | 
| column | Nom de colonne avec le type de données spécifié par chaque champ pour les données décrites par ce nœud de données. Exemple : nom d'hôte CHAINE | String | 
| parent | Parent de l'objet actuel à partir duquel les emplacements sont hérités. | Objet de référence, par exemple « parent » : \$1"ref » : » myBaseObject Id "\$1 | 

 


****  

| Champs liés à l'exécution | Description | Type d'option | 
| --- | --- | --- | 
| @Version | Version du pipeline avec laquelle l'objet été créé. | String | 

 


****  

| Champs système | Description | Type d'option | 
| --- | --- | --- | 
| @error | Erreur décrivant l'objet mal formé. | String | 
| @pipelineId | Id du pipeline auquel l'objet appartient. | String | 
| @sphere | La sphère d'un objet désigne sa place dans le cycle de vie : les objets « composant » entraînent les objets « instance » qui exécutent les objets « tentative » | String | 

# RegEx Format des données
<a name="dp-object-regex"></a>

Format de données personnalisé défini par une expression régulière.

## Exemple
<a name="regex-example"></a>

Voici un exemple de ce type d'objet. 

```
{
  "id" : "MyInputDataType",
  "type" : "RegEx",
  "inputRegEx" : "([^ ]*) ([^ ]*) ([^ ]*) (-|\\[[^\\]]*\\]) ([^ \"]*|\"[^\"]*\") (-|[0-9]*) (-|[0-9]*)(?: ([^ \"]*|\"[^\"]*\") ([^ \"]*|\"[^\"]*\"))?",
  "outputFormat" : "%1$s %2$s %3$s %4$s %5$s %6$s %7$s %8$s %9$s",
  "column" : [
    "host STRING",
    "identity STRING",
    "user STRING",
    "time STRING",
    "request STRING",
    "status STRING",
    "size STRING",
    "referer STRING",
    "agent STRING"
  ]
}
```

## Syntaxe
<a name="regex-syntax"></a>


****  

| Champs facultatifs | Description | Type d'option | 
| --- | --- | --- | 
| column | Nom de colonne avec le type de données spécifié par chaque champ pour les données décrites par ce nœud de données. Exemple : nom d'hôte STRING. Pour plusieurs valeurs, utilisez les noms de colonnes et les types de données séparés par un espace. | String | 
| inputRegEx | Expression régulière pour analyser un fichier d'entrée S3. inputRegEx permet de récupérer des colonnes à partir de données relativement peu structurées d'un fichier. | String | 
| outputFormat | Les champs de colonne extraits par inputRegEx, mais référencés sous la forme %1\$1s %2\$1s à l'aide de la syntaxe du formateur Java. | String | 
| parent | Parent de l'objet actuel à partir duquel les emplacements sont hérités. | Objet de référence, par exemple « parent » : \$1"ref » : » myBaseObject Id "\$1 | 

 


****  

| Champs liés à l'exécution | Description | Type d'option | 
| --- | --- | --- | 
| @Version | Version du pipeline avec laquelle l'objet été créé. | String | 

 


****  

| Champs système | Description | Type d'option | 
| --- | --- | --- | 
| @error | Erreur décrivant l'objet mal formé. | String | 
| @pipelineId | Id du pipeline auquel l'objet appartient. | String | 
| @sphere | La sphère d'un objet désigne sa place dans le cycle de vie : les objets « composant » entraînent les objets « instance » qui exécutent les objets « tentative » | String | 

# Format de données TSV
<a name="dp-object-tsv"></a>

Format de données séparées par des virgules dans lequel le séparateur de colonnes est le caractère de tabulation et le séparateur d'enregistrements un caractère de nouvelle ligne.

## Exemple
<a name="tsv-example"></a>

Voici un exemple de ce type d'objet. 

```
{
  "id" : "MyOutputDataType",
  "type" : "TSV",
  "column" : [
    "Name STRING",
    "Score INT",
    "DateOfBirth TIMESTAMP"
  ]
}
```

## Syntaxe
<a name="tsv-syntax"></a>


****  

| Champs facultatifs | Description | Type d'option | 
| --- | --- | --- | 
| column | Nom de colonne et type des données décrites par ce nœud de données. Par exemple, "Name STRING" désigne une colonne nommée Name avec des champs de type de données STRING. Séparez les paires nom de colonne-type de données avec des virgules (comme indiqué dans l'exemple). | String | 
| columnSeparator | Caractère de séparation des champs d'une colonne des champs de la colonne suivante. La valeur par défaut est '\$1t'. | String | 
| escapeChar | Caractère (\$1, par exemple) qui indique à l'analyseur d'ignorer le caractère suivant. | String | 
| parent | Parent de l'objet actuel à partir duquel les emplacements sont hérités. | Objet de référence, par exemple, « parent » : \$1"ref » : » myBaseObject Id "\$1 | 
| recordSeparator | Caractère de séparation des enregistrements. La valeur par défaut est '\$1n'. | String | 

 


****  

| Champs liés à l'exécution | Description | Type d'option | 
| --- | --- | --- | 
| @Version | Version du pipeline avec laquelle l'objet a été créé. | String | 

 


****  

| Champs système | Description | Type d'option | 
| --- | --- | --- | 
| @error | Erreur décrivant l'objet mal formé. | String | 
| @pipelineId | ID du pipeline auquel l'objet appartient. | String | 
| @sphere | La sphère d'un objet désigne sa place dans le cycle de vie : les objets « composant » entraînent les objets « instance », qui exécutent les objets « tentative ». | String | 

# Actions
<a name="dp-object-actions"></a>

Les objets d' AWS Data Pipeline action sont les suivants :

**Topics**
+ [SnsAlarm](dp-object-snsalarm.md)
+ [Terminer](dp-object-terminate.md)

# SnsAlarm
<a name="dp-object-snsalarm"></a>

 Envoie un message de notification Amazon SNS lorsqu'une activité échoue ou se termine correctement. 

## Exemple
<a name="snsalarm-example"></a>

Voici un exemple de ce type d'objet. Les valeurs de `node.input` et `node.output` proviennent du nœud de données ou de l'activité qui fait référence à cet objet dans son champ `onSuccess`. 

```
{
  "id" : "SuccessNotify",
  "name" : "SuccessNotify",
  "type" : "SnsAlarm",
  "topicArn" : "arn:aws:sns:us-east-1:28619EXAMPLE:ExampleTopic",
  "subject" : "COPY SUCCESS: #{node.@scheduledStartTime}",
  "message" : "Files were copied from #{node.input} to #{node.output}."
}
```

## Syntaxe
<a name="snsalarm-syntax"></a>


****  

| Champs obligatoires | Description | Type d'option | 
| --- | --- | --- | 
| message | Corps du texte de la notification Amazon SNS. | String | 
| rôle | Rôle IAM à utiliser pour créer l'alarme Amazon SNS. | String | 
| subject | Ligne d'objet du message de notification Amazon SNS. | String | 
| topicArn | ARN de rubrique Amazon SNS de destination pour le message. | String | 

 


****  

| Champs facultatifs | Description | Type d'option | 
| --- | --- | --- | 
| parent | Parent de l'objet actuel à partir duquel les emplacements sont hérités. | Objet de référence, par exemple « parent » : \$1"ref » : » myBaseObject Id "\$1 | 

 


****  

| Champs liés à l'exécution | Description | Type d'option | 
| --- | --- | --- | 
| nœud | Nœud pour lequel cette action est en cours d'exécution. | Objet de référence, par exemple « node » : \$1"ref » : » myRunnableObject Id "\$1 | 
| @Version | Version du pipeline avec laquelle l'objet été créé. | String | 

 


****  

| Champs système | Description | Type d'option | 
| --- | --- | --- | 
| @error | Erreur décrivant l'objet mal formé. | String | 
| @pipelineId | Id du pipeline auquel l'objet appartient. | String | 
| @sphere | La sphère d'un objet désigne sa place dans le cycle de vie : les objets « composant » entraînent les objets « instance » qui exécutent les objets « tentative ». | String | 

# Terminer
<a name="dp-object-terminate"></a>

Action visant à déclencher l'annulation d'une activité, d'une ressource ou d'un nœud de données en attente ou inachevé. AWS Data Pipeline tente de placer l'activité, la ressource ou le nœud de données dans l'état ANNULÉ s'il ne commence pas par la `lateAfterTimeout` valeur. 

Vous ne pouvez pas mettre fin à des actions qui comprennent des ressources `onSuccess`, `OnFail` ou `onLateAction`.

## Exemple
<a name="terminate-example"></a>

Voici un exemple de ce type d'objet. Dans cet exemple, le champ `onLateAction` de `MyActivity` contient une référence à l'action `DefaultAction1`. Lorsque vous fournissez une action pour `onLateAction`, vous devez également fournir une valeur `lateAfterTimeout` pour indiquer la période écoulée depuis le début planifié du pipeline qui indique que l'activité est en retard.

```
{
  "name" : "MyActivity",
  "id" : "DefaultActivity1",
  "schedule" : {
    "ref" : "MySchedule"
  },
  "runsOn" : {
    "ref" : "MyEmrCluster"
  },
  "lateAfterTimeout" : "1 Hours",
  "type" : "EmrActivity",
  "onLateAction" : {
    "ref" : "DefaultAction1"
  },
  "step" : [
    "s3://amzn-s3-demo-bucket/myPath/myStep.jar,firstArg,secondArg",
    "s3://amzn-s3-demo-bucket/myPath/myOtherStep.jar,anotherArg"
  ]
},
{
  "name" : "TerminateTasks",
  "id" : "DefaultAction1",
  "type" : "Terminate"
}
```

## Syntaxe
<a name="terminate-syntax"></a>


****  

| Champs facultatifs | Description | Type d'option | 
| --- | --- | --- | 
| parent | Parent de l'objet actuel à partir duquel les emplacements sont hérités. | Objet de référence, par exemple « parent » : \$1"ref » : » myBaseObject Id "\$1 | 

 


****  

| Champs liés à l'exécution | Description | Type d'option | 
| --- | --- | --- | 
| nœud | Nœud pour lequel cette action est en cours d'exécution. | Objet de référence, par exemple « node » : \$1"ref » : » myRunnableObject Id "\$1 | 
| @Version | Version du pipeline avec laquelle l'objet a été créé. | String | 

 


****  

| Champs système | Description | Type d'option | 
| --- | --- | --- | 
| @error | Erreur décrivant l'objet mal formé. | String | 
| @pipelineId | ID du pipeline auquel l'objet appartient. | String | 
| @sphere | La sphère d'un objet désigne sa place dans le cycle de vie : les objets « composant » entraînent les objets « instance », qui exécutent les objets « tentative ». | String | 

# Planning
<a name="dp-object-schedule"></a>

Définit les informations temporelles d'un événement planifié, par exemple, le moment où une activité s'exécute.

**Note**  
Lorsque l'heure de début d'un calendrier est passée, AWS Data Pipeline remplit votre pipeline et commence à planifier des séries à partir de l'heure de début spécifiée. Pour les tests/le développement, utilisez un intervalle relativement court. Sinon, AWS Data Pipeline tente de mettre en file d'attente et de planifier toutes les exécutions de votre pipeline pendant cet intervalle. AWS Data Pipeline tente d'empêcher les remblayages accidentels si le composant `scheduledStartTime` du pipeline date d'il y a moins d'un jour en bloquant l'activation du pipeline.

## Exemples
<a name="schedule-example"></a>

Voici un exemple de ce type d'objet. Il définit une planification toutes les heures à partir de 00:00:00 heure le 01/09/2012 et jusqu'à 00:00:00 heure le 01/10/2012. La première période se termine à 01:00:00 le 01/09/2012.

```
{
  "id" : "Hourly",
  "type" : "Schedule",
  "period" : "1 hours",
  "startDateTime" : "2012-09-01T00:00:00",
  "endDateTime" : "2012-10-01T00:00:00"
}
```

Le pipeline suivant démarre à `FIRST_ACTIVATION_DATE_TIME` et s'exécute toutes les heures jusqu'à 22:00:00 heures le 25/04/2014.

```
{
     "id": "SchedulePeriod",
     "name": "SchedulePeriod",
     "startAt": "FIRST_ACTIVATION_DATE_TIME",
     "period": "1 hours",
     "type": "Schedule",
     "endDateTime": "2014-04-25T22:00:00"
   }
```

Le pipeline suivante démarre à `FIRST_ACTIVATION_DATE_TIME`, s'exécute toutes les heures et prend fin après trois occurrences.

```
{
     "id": "SchedulePeriod",
     "name": "SchedulePeriod",
     "startAt": "FIRST_ACTIVATION_DATE_TIME",
     "period": "1 hours",
     "type": "Schedule",
     "occurrences": "3"
   }
```

Le pipeline suivant démarre à 22:00:00 le 25/04/2014, s'exécute toutes les heures et prend fin après trois occurrences.

```
{
     "id": "SchedulePeriod",
     "name": "SchedulePeriod",
     "startDateTime": "2014-04-25T22:00:00",
     "period": "1 hours",
     "type": "Schedule",
     "occurrences": "3"
   }
```

A la demande à l'aide de l'objet Default

```
{
  "name": "Default",
  "resourceRole": "DataPipelineDefaultResourceRole",
  "role": "DataPipelineDefaultRole",
  "scheduleType": "ondemand"
}
```

A la demande à l'aide de l'objet explicite Schedule

```
{
  "name": "Default",
  "resourceRole": "DataPipelineDefaultResourceRole",
  "role": "DataPipelineDefaultRole",
  "scheduleType": "ondemand"
},
{
  "name": "DefaultSchedule",
  "type": "Schedule",
  "id": "DefaultSchedule",
  "period": "ONDEMAND_PERIOD",
  "startAt": "ONDEMAND_ACTIVATION_TIME"
},
```

Les exemples suivants montrent comment un objet Schedule peut être hérité de l'objet Default, être explicitement défini pour cet objet ou être fourni par une référence Parent :

Objet Schedule hérité de l'objet Default

```
{
  "objects": [
  {       
      "id": "Default",
      "failureAndRerunMode":"cascade",
      "resourceRole": "DataPipelineDefaultResourceRole",
      "role": "DataPipelineDefaultRole",
      "pipelineLogUri": "s3://myLogsbucket",
      "scheduleType": "cron",
      "schedule": {
        "ref": "DefaultSchedule"
      }
   },
   {
      "type": "Schedule",
      "id": "DefaultSchedule",
      "occurrences": "1",
      "period": "1 Day",
      "startAt": "FIRST_ACTIVATION_DATE_TIME"
    },
    { 
      "id": "A_Fresh_NewEC2Instance",
      "type": "Ec2Resource",
      "terminateAfter": "1 Hour"
    },
    {
      "id": "ShellCommandActivity_HelloWorld",
      "runsOn": {
        "ref": "A_Fresh_NewEC2Instance"
      },
      "type": "ShellCommandActivity",
      "command": "echo 'Hello World!'"
    }
  ]
}
```

Objet Schedule explicite sur l'objet

```
{
  "objects": [
  {       
      "id": "Default",
      "failureAndRerunMode":"cascade",
      "resourceRole": "DataPipelineDefaultResourceRole",
      "role": "DataPipelineDefaultRole",
      "pipelineLogUri": "s3://myLogsbucket",
      "scheduleType": "cron"
      
   },
   {
      "type": "Schedule",
      "id": "DefaultSchedule",
      "occurrences": "1",
      "period": "1 Day",
      "startAt": "FIRST_ACTIVATION_DATE_TIME"
    },
    { 
      "id": "A_Fresh_NewEC2Instance",
      "type": "Ec2Resource",
      "terminateAfter": "1 Hour"
    },
    {
      "id": "ShellCommandActivity_HelloWorld",
      "runsOn": {
        "ref": "A_Fresh_NewEC2Instance"
      },
      "schedule": {
        "ref": "DefaultSchedule"
      },
      "type": "ShellCommandActivity",
      "command": "echo 'Hello World!'"
    }
  ]
}
```

Objet Schedule de la référence Parent

```
{
  "objects": [
  {       
      "id": "Default",
      "failureAndRerunMode":"cascade",
      "resourceRole": "DataPipelineDefaultResourceRole",
      "role": "DataPipelineDefaultRole",
      "pipelineLogUri": "s3://myLogsbucket",
      "scheduleType": "cron"
      
   },
   {       
      "id": "parent1",
      "schedule": {
        "ref": "DefaultSchedule"
      }
      
   },
   {
      "type": "Schedule",
      "id": "DefaultSchedule",
      "occurrences": "1",
      "period": "1 Day",
      "startAt": "FIRST_ACTIVATION_DATE_TIME"
    },
    { 
      "id": "A_Fresh_NewEC2Instance",
      "type": "Ec2Resource",
      "terminateAfter": "1 Hour"
    },
    {
      "id": "ShellCommandActivity_HelloWorld",
      "runsOn": {
        "ref": "A_Fresh_NewEC2Instance"
      },
      "parent": {
        "ref": "parent1"
      },
      "type": "ShellCommandActivity",
      "command": "echo 'Hello World!'"
    }
  ]
}
```

## Syntaxe
<a name="schedule-syntax"></a>


****  

| Champs obligatoires | Description | Type d'option | 
| --- | --- | --- | 
| point | Fréquence d'exécution du pipeline. Le format est « N [minutes\$1heures\$1jours\$1semaines\$1mois ] », où N est un nombre suivi d'un des spécificateurs de temps. Par exemple, la valeur « 15 minutes » exécute le pipeline toutes les 15 minutes. La période minimale est de 15 minutes et la durée maximale de 3 ans. | Period | 

 


****  

| Groupe obligatoire (l'un des groupes suivants est obligatoire) | Description | Type d'option | 
| --- | --- | --- | 
| startAt | Date et heure de début des exécutions planifiées du pipeline. La valeur valide est FIRST\$1ACTIVATION\$1DATE\$1TIME, qui est obsolète et remplacée par la création d'un pipeline à la demande. | Énumération | 
| startDateTime | Date et heure de début des exécutions planifiées. Vous devez utiliser l'un ou l'autre startDateTime ou StartAt, mais pas les deux. | DateTime | 

 


****  

| Champs facultatifs | Description | Type d'option | 
| --- | --- | --- | 
| endDateTime | Date et heure de fin des exécutions planifiées. La date et l'heure doivent être postérieures à la valeur de startDateTime ou StartAt. Le comportement par défaut consiste à planifier les exécutions jusqu'à l'arrêt du pipeline.  | DateTime | 
| occurrences | Nombre d'exécutions du pipeline après son activation. Vous ne pouvez pas utiliser d'occurrences avec endDateTime. | Entier | 
| parent | Parent de l'objet actuel à partir duquel les emplacements sont hérités. | Objet de référence, par exemple « parent » : \$1"ref » : » myBaseObject Id "\$1 | 

 


****  

| Champs liés à l'exécution | Description | Type d'option | 
| --- | --- | --- | 
| @Version | Version du pipeline avec laquelle l'objet été créé. | String | 

 


****  

| Champs système | Description | Type d'option | 
| --- | --- | --- | 
| @error | Erreur décrivant l'objet mal formé. | String | 
| @firstActivationTime | Heure de création de l'objet. | DateTime | 
| @pipelineId | Id du pipeline auquel l'objet appartient. | String | 
| @sphere | La sphère d'un objet désigne sa place dans le cycle de vie : les objets « composant » entraînent les objets « instance » qui exécutent les objets « tentative » | String | 

# Utilitaires
<a name="dp-object-utilities"></a>

Les objets d'utilitaire suivants configurent les autres objets du pipeline :

**Topics**
+ [ShellScriptConfig](dp-object-shellscriptconfig.md)
+ [EmrConfiguration](dp-object-emrconfiguration.md)
+ [Propriété](dp-object-property.md)

# ShellScriptConfig
<a name="dp-object-shellscriptconfig"></a>

À utiliser avec une activité pour exécuter un script shell pour preActivityTask Config et postActivityTask Config. Cet objet est disponible pour [HadoopActivity[HiveActivity](dp-object-hiveactivity.md)](dp-object-hadoopactivity.md), [HiveCopyActivity](dp-object-hivecopyactivity.md), et [PigActivity](dp-object-pigactivity.md). Vous pouvez spécifier un URI S3 et une liste d'arguments pour le script.

## Exemple
<a name="shellscriptconfig-example"></a>

A ShellScriptConfig avec des arguments :

```
{
   "id" : "ShellScriptConfig_1”,
   "name" : “prescript”,
   "type" : "ShellScriptConfig",
   "scriptUri": “s3://my-bucket/shell-cleanup.sh”,
   "scriptArgument" : ["arg1","arg2"]
 }
```

## Syntaxe
<a name="shellscriptconfig-syntax"></a>

Cet objet inclut les champs suivants.


****  

| Champs facultatifs | Description | Type d'option | 
| --- | --- | --- | 
| parent | Parent de l'objet actuel à partir duquel les emplacements sont hérités. | Objet de référence, par exemple, « parent » : \$1"ref » : » myBaseObject Id "\$1 | 
| scriptArgument | Liste d'arguments à utiliser avec le script shell. | String | 
| scriptUri | URI du script dans Amazon S3 qui doit être téléchargé et exécuté. | String | 

 


****  

| Champs liés à l'exécution | Description | Type d'option | 
| --- | --- | --- | 
| @Version | Version du pipeline avec laquelle l'objet a été créé. | String | 

 


****  

| Champs système | Description | Type d'option | 
| --- | --- | --- | 
| @error | Erreur décrivant l'objet mal formé. | String | 
| @pipelineId | ID du pipeline auquel l'objet appartient. | String | 
| @sphere | La sphère d'un objet désigne sa place dans le cycle de vie : les objets « composant » entraînent les objets « instance », qui exécutent les objets « tentative ». | String | 

# EmrConfiguration
<a name="dp-object-emrconfiguration"></a>

L' EmrConfiguration objet est la configuration utilisée pour les clusters EMR avec les versions 4.0.0 ou supérieures. Les configurations (sous forme de liste) sont un paramètre de l'appel RunJobFlow d'API. L'API de configuration pour Amazon EMR utilise une classification et des propriétés. AWS Data Pipeline utilise EmrConfiguration avec les objets Property correspondants pour configurer une [EmrCluster](dp-object-emrcluster.md) application telle que Hadoop, Hive, Spark ou Pig sur des clusters EMR lancés lors d'une exécution de pipeline. Comme la configuration ne peut être modifiée que pour les nouveaux clusters, vous ne pouvez pas fournir d' EmrConfiguration objet pour les ressources existantes. Pour de plus amples informations, veuillez consulter [https://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide/](https://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide/).

## Exemple
<a name="emrconfiguration-example"></a>

L'objet de configuration suivant définit les propriétés `io.file.buffer.size` et `fs.s3.block.size` dans `core-site.xml` :

```
[
   {  
      "classification":"core-site",
      "properties":
      {
         "io.file.buffer.size": "4096",
         "fs.s3.block.size": "67108864"
      }
   }
]
```

La définition d'objet de pipeline correspondante utilise un EmrConfiguration objet et une liste d'objets Property dans le `property` champ :

```
{
  "objects": [
    {
      "name": "ReleaseLabelCluster",
      "releaseLabel": "emr-4.1.0",
      "applications": ["spark", "hive", "pig"],
      "id": "ResourceId_I1mCc",
      "type": "EmrCluster",
      "configuration": {
        "ref": "coresite"
      }
    },
    {
      "name": "coresite",
      "id": "coresite",
      "type": "EmrConfiguration",
      "classification": "core-site",
      "property": [{
        "ref": "io-file-buffer-size"
      },
      {
        "ref": "fs-s3-block-size"
      }
      ]
    },
    {
      "name": "io-file-buffer-size",
      "id": "io-file-buffer-size",
      "type": "Property",
      "key": "io.file.buffer.size",
      "value": "4096"
    },
    {
      "name": "fs-s3-block-size",
      "id": "fs-s3-block-size",
      "type": "Property",
      "key": "fs.s3.block.size",
      "value": "67108864"
    }
  ]
}
```

L'exemple suivant illustre une configuration imbriquée utilisée pour définir l'environnement Hadoop avec la classification `hadoop-env` :

```
[
  {
    "classification": "hadoop-env",
    "properties": {},
    "configurations": [
      {
        "classification": "export",
        "properties": {
          "YARN_PROXYSERVER_HEAPSIZE": "2396"
        }
      }
    ]
  }
]
```

L'objet de définition de pipeline correspondant qui utilise cette configuration se trouve ci-après :

```
{
  "objects": [
    {
      "name": "ReleaseLabelCluster",
      "releaseLabel": "emr-4.0.0",
      "applications": ["spark", "hive", "pig"],
      "id": "ResourceId_I1mCc",
      "type": "EmrCluster",
      "configuration": {
        "ref": "hadoop-env"
      }
    },
    {
      "name": "hadoop-env",
      "id": "hadoop-env",
      "type": "EmrConfiguration",
      "classification": "hadoop-env",
      "configuration": {
        "ref": "export"
      }
    },
    {
      "name": "export",
      "id": "export",
      "type": "EmrConfiguration",
      "classification": "export",
      "property": {
        "ref": "yarn-proxyserver-heapsize"
      }
    },
    {
      "name": "yarn-proxyserver-heapsize",
      "id": "yarn-proxyserver-heapsize",
      "type": "Property",
      "key": "YARN_PROXYSERVER_HEAPSIZE",
      "value": "2396"
    },
  ]
}
```

L'exemple suivant modifie une propriété spécifique à Hive pour un cluster EMR :

```
{
    "objects": [
        {
            "name": "hivesite",
            "id": "hivesite",
            "type": "EmrConfiguration",
            "classification": "hive-site",
            "property": [
                {
                    "ref": "hive-client-timeout"
                }
            ]
        },
        {
            "name": "hive-client-timeout",
            "id": "hive-client-timeout",
            "type": "Property",
            "key": "hive.metastore.client.socket.timeout",
            "value": "2400s"
        }
    ]
}
```

## Syntaxe
<a name="emrconfiguration-syntax"></a>

Cet objet inclut les champs suivants.


****  

| Champs obligatoires | Description | Type d'option | 
| --- | --- | --- | 
| classification | Classification de la configuration. | String | 

 


****  

| Champs facultatifs | Description | Type d'option | 
| --- | --- | --- | 
| configuration | Sous-configuration de la configuration. | Objet de référence, par exemple « configuration » : \$1"ref » : » myEmrConfiguration Id "\$1 | 
| parent | Parent de l'objet actuel à partir duquel les emplacements sont hérités. | Objet de référence, par exemple « parent » : \$1"ref » : » myBaseObject Id "\$1 | 
| property | Propriété de configuration | Objet de référence, par exemple « property » : \$1"ref » : » myPropertyId «\$1 | 

 


****  

| Champs liés à l'exécution | Description | Type d'option | 
| --- | --- | --- | 
| @Version | Version du pipeline avec laquelle l'objet été créé. | String | 

 


****  

| Champs système | Description | Type d'option | 
| --- | --- | --- | 
| @error | Erreur décrivant l'objet mal formé. | String | 
| @pipelineId | Id du pipeline auquel l'objet appartient. | String | 
| @sphere | La sphère d'un objet désigne sa place dans le cycle de vie : les objets « composant » entraînent les objets « instance » qui exécutent les objets « tentative » | String | 

## Voir aussi
<a name="emrconfiguration-seealso"></a>
+ [EmrCluster](dp-object-emrcluster.md)
+ [Propriété](dp-object-property.md)
+ [Amazon EMR Guide de version](https://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide/)

# Propriété
<a name="dp-object-property"></a>

Propriété clé-valeur unique à utiliser avec un EmrConfiguration objet.

## Exemple
<a name="property-example"></a>

La définition de pipeline suivante montre un EmrConfiguration objet et les objets Property correspondants pour lancer un EmrCluster :

```
{
  "objects": [
    {
      "name": "ReleaseLabelCluster",
      "releaseLabel": "emr-4.1.0",
      "applications": ["spark", "hive", "pig"],
      "id": "ResourceId_I1mCc",
      "type": "EmrCluster",
      "configuration": {
        "ref": "coresite"
      }
    },
    {
      "name": "coresite",
      "id": "coresite",
      "type": "EmrConfiguration",
      "classification": "core-site",
      "property": [{
        "ref": "io-file-buffer-size"
      },
      {
        "ref": "fs-s3-block-size"
      }
      ]
    },
    {
      "name": "io-file-buffer-size",
      "id": "io-file-buffer-size",
      "type": "Property",
      "key": "io.file.buffer.size",
      "value": "4096"
    },
    {
      "name": "fs-s3-block-size",
      "id": "fs-s3-block-size",
      "type": "Property",
      "key": "fs.s3.block.size",
      "value": "67108864"
    }
  ]
}
```

## Syntaxe
<a name="property-syntax"></a>

Cet objet inclut les champs suivants.


****  

| Champs obligatoires | Description | Type d'option | 
| --- | --- | --- | 
| clé | key | Chaîne | 
| value | value | String | 

 


****  

| Champs facultatifs | Description | Type d'option | 
| --- | --- | --- | 
| parent | Parent de l'objet actuel à partir duquel les emplacements sont hérités. | Objet de référence, par exemple, « parent » : \$1"ref » : » myBaseObject Id "\$1 | 

 


****  

| Champs liés à l'exécution | Description | Type d'option | 
| --- | --- | --- | 
| @Version | Version du pipeline avec laquelle l'objet a été créé. | String | 

 


****  

| Champs système | Description | Type d'option | 
| --- | --- | --- | 
| @error | Erreur décrivant l'objet mal formé. | String | 
| @pipelineId | ID du pipeline auquel l'objet appartient. | String | 
| @sphere | La sphère d'un objet désigne sa place dans le cycle de vie : les objets « composant » entraînent les objets « instance », qui exécutent les objets « tentative ». | String | 

## Voir aussi
<a name="property-seealso"></a>
+ [EmrCluster](dp-object-emrcluster.md)
+ [EmrConfiguration](dp-object-emrconfiguration.md)
+ [Amazon EMR Guide de version](https://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide/)