

AWS Data Pipeline n'est plus disponible pour les nouveaux clients. Les clients existants de AWS Data Pipeline peuvent continuer à utiliser le service normalement. [En savoir plus](https://aws.amazon.com/blogs/big-data/migrate-workloads-from-aws-data-pipeline/)

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Activités
<a name="dp-object-activities"></a>

Les objets de l' AWS Data Pipeline activité sont les suivants :

**Topics**
+ [CopyActivity](dp-object-copyactivity.md)
+ [EmrActivity](dp-object-emractivity.md)
+ [HadoopActivity](dp-object-hadoopactivity.md)
+ [HiveActivity](dp-object-hiveactivity.md)
+ [HiveCopyActivity](dp-object-hivecopyactivity.md)
+ [PigActivity](dp-object-pigactivity.md)
+ [RedshiftCopyActivity](dp-object-redshiftcopyactivity.md)
+ [ShellCommandActivity](dp-object-shellcommandactivity.md)
+ [SqlActivity](dp-object-sqlactivity.md)

# CopyActivity
<a name="dp-object-copyactivity"></a>

Copie les données d'un emplacement à un autre. `CopyActivity`prend en charge [S3 DataNode](dp-object-s3datanode.md) et [SqlDataNode](dp-object-sqldatanode.md) en entrée et en sortie et l'opération de copie est normalement effectuée record-by-record. `CopyActivity`Fournit toutefois une copie haute performance d'Amazon S3 vers Amazon S3 lorsque toutes les conditions suivantes sont remplies :
+ L'entrée et la sortie sont S3 DataNodes
+ Le champ `dataFormat` est le même pour l'entrée et pour la sortie.

Si vous fournissez des fichiers de données compressés en tant qu'entrées et ne l'indiquez pas à l'aide du champ `compression` des nœuds de données S3, `CopyActivity` risque d'échouer. Dans ce cas, `CopyActivity` ne détecte pas correctement la fin du caractère d'enregistrement et l'opération échoue. En outre, `CopyActivity` prend en charge la copie d'un répertoire vers un autre répertoire et la copie d'un fichier dans un répertoire, mais la record-by-record copie se produit lors de la copie d'un répertoire dans un fichier. Enfin, `CopyActivity` ne prend pas en charge la copie de fichiers Amazon S3 en plusieurs parties. 

`CopyActivity` présente des limites spécifiques à sa prise en charge CSV. Lorsque vous utilisez un S3 DataNode comme entrée pour`CopyActivity`, vous ne pouvez utiliser qu'une Unix/Linux variante du format de fichier de données CSV pour les champs d'entrée et de sortie d'Amazon S3. La Unix/Linux variante nécessite les éléments suivants : 
+ Le séparateur doit être la virgule (« , »).
+ Les enregistrements ne sont pas entre guillemets.
+ Le caractère d'échappement par défaut est la valeur ASCII 92 (barre oblique inverse).
+ La fin de l'identifiant d'enregistrement est la valeur ASCII 10 (ou « \$1n »).

Les systèmes Windows utilisent généralement une séquence de end-of-record caractères différente : retour en chariot et alimentation en ligne en même temps (valeur ASCII 13 et valeur ASCII 10). Vous devez gérer cette différence à l'aide d'un mécanisme supplémentaire, tel qu'un script de pré-copie de script permettant de modifier les données d'entrée, afin de vous assurer que `CopyActivity` puisse correctement détecter la fin d'un enregistrement ; dans le cas contraire, `CopyActivity` échoue de manière répétée.

Lorsque vous utilisez `CopyActivity` pour exporter à partir d'un objet PostgreSQL RDS vers un format de données TSV, le caractère NULL par défaut est \$1n.

## Exemple
<a name="copyactivity-example"></a>

Voici un exemple de ce type d'objet. Cet objet référence trois autres objets que vous pourriez définir dans le même fichier de définition du pipeline. `CopyPeriod` est un objet `Schedule`. `InputData` et `OutputData` sont des objets de nœud de données.

```
{
  "id" : "S3ToS3Copy",
  "type" : "CopyActivity",
  "schedule" : { "ref" : "CopyPeriod" },
  "input" : { "ref" : "InputData" },
  "output" : { "ref" : "OutputData" },
  "runsOn" : { "ref" : "MyEc2Resource" }
}
```

## Syntaxe
<a name="copyactivity-syntax"></a>


****  

| Champs d'invocation de l'objet | Description | Type d'option | 
| --- | --- | --- | 
| schedule | Cet objet est appelé dans le cadre de l'exécution d'un intervalle de planification. Les utilisateurs doivent spécifier une référence de planification à un autre objet pour définir l'ordre d'exécution des dépendances de l'objet. Les utilisateurs peuvent satisfaire à cette exigence en définissant explicitement un calendrier sur l'objet, par exemple en spécifiant « schedule » : \$1"ref » : "DefaultSchedule«\$1. Dans la plupart des cas, il est préférable de placer la planification de référence sur l'objet de pipeline par défaut de manière à ce que tous les objets héritent cette planification. Ou, si le pipeline dispose d'une arborescence de planifications (planifications au sein de la planification maître), les utilisateurs peuvent créer un objet parent ayant une référence de planification. Pour plus d'informations sur les exemples de configurations de planification facultatives, consultez [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html). | Objet de référence, par exemple « schedule » : \$1"ref » : » myScheduleId «\$1 | 


****  

| Groupe obligatoire (l'un des groupes suivants est obligatoire) | Description | Type d'option | 
| --- | --- | --- | 
| runsOn | Ressource de calcul pour exécuter l'activité ou la commande. Par exemple, une instance Amazon EC2 ou un cluster Amazon EMR. | Objet de référence, par exemple « RunSon » : \$1"ref » : » myResourceId «\$1 | 
| workerGroup | Groupe de travail. Utilisé pour les tâches d'acheminement. Si vous fournissez une valeur runsOn et que workerGroup existe, workerGroup est ignoré. | String | 

 


****  

| Champs facultatifs | Description | Type d'option | 
| --- | --- | --- | 
| attemptStatus | État de l'activité à distance le plus récemment rapporté. | String | 
| attemptTimeout | Délai d'achèvement de la tâche à distance. Si une valeur est définie, une activité à distance qui n'est pas exécutée dans le cadre de la période de départ définie peut être retentée. | Period | 
| dependsOn | Spécifie une dépendance sur un autre objet exécutable. | Objet de référence, par exemple « DependsOn » : \$1"ref » : » myActivityId «\$1 | 
| failureAndRerunMode | Décrit le comportement du nœud de consommateurs lorsque les dépendances échouent ou sont à nouveau exécutées. | Énumération | 
| input | Source de données d'entrée. | Objet de référence, par exemple « input » : \$1"ref » : » myDataNode Id "\$1 | 
| lateAfterTimeout | Temps écoulé après le début du pipeline pendant lequel l'objet doit être terminé. Il est déclenché uniquement lorsque le type de planification n'est pas défini surondemand. | Period | 
| maxActiveInstances | Nombre maximal d'instances actives simultanées d'un composant. Les réexécutions ne sont pas comptabilisées dans le nombre d'instances actives. | Entier | 
| maximumRetries | Nombre maximal de nouvelles tentatives en cas d'échec | Entier | 
| onFail | Action à exécuter en cas d'échec de l'objet actuel. | Objet de référence, par exemple « onFail » : \$1"ref » : » myActionId «\$1 | 
| onLateAction | Actions à déclencher si un objet n'a pas encore été planifié ou n'est toujours pas terminé. | Objet de référence, par exemple "onLateAction« : \$1" ref » : » myActionId «\$1 | 
| onSuccess | Action à exécuter en cas de réussite de l'objet actuel. | Objet de référence, par exemple « onSuccess » : \$1"ref » : » myActionId «\$1 | 
| output | Source de données de sortie. | Objet de référence, par exemple « output » : \$1"ref » : » myDataNode Id "\$1 | 
| parent | Parent de l'objet actuel à partir duquel les emplacements sont hérités. | Objet de référence, par exemple « parent » : \$1"ref » : » myBaseObject Id "\$1 | 
| pipelineLogUri | L'URI S3 (tel que 's3 ://BucketName/Key/ ') pour le téléchargement des journaux pour le pipeline. | String | 
| precondition | Définit une condition préalable facultative. Un nœud de données n'est pas marqué « READY » tant que toutes les conditions préalables ne sont pas remplies. | Objet de référence, par exemple « précondition » : \$1"ref » : » myPreconditionId «\$1 | 
| reportProgressTimeout | Délai pour les appels successifs de travail à distance adressés à reportProgress. Si une valeur est définie, les activités à distance qui ne font pas état d'avancement pour la période spécifiée doivent être considérées comme bloquées et, par conséquent, retentées. | Period | 
| retryDelay | Délai entre deux nouvelles tentatives. | Period | 
| scheduleType | Le type de planification vous permet de spécifier si les objets de votre définition de pipeline doivent être planifiés au début ou à la fin de l'intervalle. Dans la planification de type séries chronologiques, les instances sont planifiées à la fin de chaque intervalle et dans la planification de type cron, les instances sont planifiées au début de chaque intervalle. Une planification à la demande vous permet d'exécuter un pipeline une fois par activation. Cela signifie que vous n'avez pas à cloner ou à recréer le pipeline pour l'exécuter à nouveau. Si vous utilisez une planification à la demande, elle doit être spécifiée dans l'objet par défaut et être le seul scheduleType pour les objets du pipeline. Pour utiliser des pipelines à la demande, il suffit d'appeler l' ActivatePipeline opération pour chaque exécution suivante. Les valeurs sont : cron, ondemand et timeseries (cron, à la demande et séries chronologiques). | Énumération | 

 


****  

| Champs liés à l'exécution | Description | Type d'option | 
| --- | --- | --- | 
| @activeInstances | Liste des objets d'instances actives actuellement planifiés. | Objet de référence, par exemple « ActiveInstances » : \$1"ref » : » myRunnableObject Id "\$1 | 
| @actualEndTime | Heure à laquelle l'exécution de l'objet s'est terminée. | DateTime | 
| @actualStartTime | Heure à laquelle l'exécution de l'objet a démarré. | DateTime | 
| cancellationReason | Motif de l'annulation si l'objet a été annulé. | String | 
| @cascadeFailedOn | Description de la chaîne de dépendances sur laquelle l'objet a échoué. | Objet de référence, par exemple "cascadeFailedOn« : \$1" ref » : » myRunnableObject Id "\$1 | 
| emrStepLog | Journaux d'étapes EMR disponibles uniquement sur les tentatives d'activité EMR | String | 
| errorId | ID de l'erreur si l'objet a échoué. | String | 
| errorMessage | errorMessage si l'objet a échoué. | String | 
| errorStackTrace | Suivi de la pile d'erreurs si l'objet a échoué. | String | 
| @finishedTime | Heure à laquelle l'objet a terminé son exécution. | DateTime | 
| hadoopJobLog | Journaux de travail Hadoop disponibles sur les tentatives pour les activités EMR. | String | 
| @healthStatus | État de santé de l'objet qui reflète la réussite ou l'échec de la dernière instance qui a atteint un état résilié. | String | 
| @healthStatusFromInstanceId | ID du dernier objet d'instance qui atteint un état résilié. | String | 
| @ healthStatusUpdated Heure | Heure à laquelle l'état de santé a été mis à jour pour la dernière fois. | DateTime | 
| hostname | Nom d'hôte du client qui a sélectionné la tentative de tâche. | String | 
| @lastDeactivatedTime | Heure à laquelle l'objet a été désactivé pour la dernière fois. | DateTime | 
| @ latestCompletedRun Heure | Heure de la dernière exécution pour laquelle l'exécution s'est terminée. | DateTime | 
| @latestRunTime | Heure de la dernière exécution pour laquelle l'exécution a été planifiée. | DateTime | 
| @nextRunTime | Prochaine heure d'exécution planifiée. | DateTime | 
| reportProgressTime | Heure la plus récente pour laquelle l'activité distante a signalé une progression. | DateTime | 
| @scheduledEndTime | Heure de fin planifiée pour l'objet. | DateTime | 
| @scheduledStartTime | Heure de début planifiée pour l'objet. | DateTime | 
| @État | État de l'objet. | String | 
| @Version | Version du pipeline avec laquelle l'objet été créé. | String | 
| @waitingOn | Description de la liste des dépendances sur laquelle l'objet est en attente. | Objet de référence, par exemple « WaitingOn » : \$1"ref » : » myRunnableObject Id "\$1 | 

 


****  

| Champs système | Description | Type d'option | 
| --- | --- | --- | 
| @error | Erreur décrivant l'objet mal formé. | String | 
| @pipelineId | Id du pipeline auquel l'objet appartient. | String | 
| @sphere | La sphère d'un objet désigne sa place dans le cycle de vie : les objets « composant » entraînent les objets « instance » qui exécutent les objets « tentative » | String | 

## Voir aussi
<a name="copyactivity-seealso"></a>
+ [ShellCommandActivity](dp-object-shellcommandactivity.md)
+ [EmrActivity](dp-object-emractivity.md)
+ [Exportez des données MySQL vers Amazon S3 à l'aide de AWS Data Pipeline](dp-copydata-mysql.md)

# EmrActivity
<a name="dp-object-emractivity"></a>

 Exécute un cluster EMR. 

AWS Data Pipeline utilise un format d'étape différent de celui d'Amazon EMR ; par exemple, AWS Data Pipeline utilise des arguments séparés par des virgules après le nom du fichier JAR dans le champ de l'étape. `EmrActivity` L'exemple suivant montre une étape formatée pour Amazon EMR, suivie AWS Data Pipeline de son équivalent :

```
s3://amzn-s3-demo-bucket/MyWork.jar arg1 arg2 arg3
```

```
"s3://amzn-s3-demo-bucket/MyWork.jar,arg1,arg2,arg3"
```

## Exemples
<a name="emractivity-example"></a>

Voici un exemple de ce type d'objet. Cet exemple utilise d'anciennes versions d'Amazon EMR. Vérifiez l'exactitude de cet exemple avec la version du cluster Amazon EMR que vous utilisez. 

Cet objet référence trois autres objets que vous pourriez définir dans le même fichier de définition du pipeline. `MyEmrCluster` est un objet `EmrCluster`. `MyS3Input` et `MyS3Output` sont des objets `S3DataNode`. 

**Note**  
Dans cet exemple, vous pouvez remplacer le champ `step` par votre chaîne de clusters souhaitée, qui peut être, entre autres, un script Pig, un cluster Hadoop Streaming ou votre propre fichier JAR personnalisé avec ses paramètres.

Hadoop 2.x (AMI 3.x)

```
{
  "id" : "MyEmrActivity",
  "type" : "EmrActivity",
  "runsOn" : { "ref" : "MyEmrCluster" },
  "preStepCommand" : "scp remoteFiles localFiles",
  "step" : ["s3://amzn-s3-demo-bucket/myPath/myStep.jar,firstArg,secondArg,-files,s3://amzn-s3-demo-bucket/myPath/myFile.py,-input,s3://myinputbucket/path,-output,s3://myoutputbucket/path,-mapper,myFile.py,-reducer,reducerName","s3://amzn-s3-demo-bucket/myPath/myotherStep.jar,..."],
  "postStepCommand" : "scp localFiles remoteFiles",
  "input" : { "ref" : "MyS3Input" },
  "output" : { "ref" : "MyS3Output" }
}
```

**Note**  
Pour transmettre des arguments à une application dans une étape, vous devez spécifier la région dans le chemin du script, comme indiqué dans l'exemple suivant. Il est également possible que vous deviez faire précéder les arguments que vous transmettez d'une séquence d'échappement. Par exemple, si vous utilisez `script-runner.jar` pour exécuter un script shell et que vous souhaitez transmettre des arguments au script, vous devez faire précéder les virgules qui les séparent d'une séquence d'échappement. L'extrait d'étape suivant montre comment procéder :   

```
"step" : "s3://eu-west-1.elasticmapreduce/libs/script-runner/script-runner.jar,s3://datapipeline/echo.sh,a\\\\,b\\\\,c"
```
Cette étape utilise `script-runner.jar` pour exécuter le script shell `echo.sh` et transmet `a`, `b` et `c` comme un seul argument au script. Comme le premier caractère d'échappement est supprimé de l'argument obtenu, il se peut que vous ayez à nouveau besoin de le faire précéder d'une séquence d'échappement. Par exemple, si vous avez `File\.gz` comme argument dans JSON, vous pouvez le faire précéder d'une séquence d'échappement avec `File\\\\.gz`. Cependant, comme la première séquence d'échappement est ignorée, vous devez utiliser `File\\\\\\\\.gz `.

## Syntaxe
<a name="emractivity-syntax"></a>


****  

| Champs d'invocation de l'objet | Description | Type d'option | 
| --- | --- | --- | 
| schedule | Cet objet est appelé dans le cadre de l'exécution d'un intervalle de planification. Spécifiez une référence de planification à un autre objet pour définir l'ordre d'exécution des dépendances de l'objet. Vous pouvez répondre à cette exigence en définissant explicitement une planification sur l'objet, par exemple, en spécifiant "schedule": \$1"ref": "DefaultSchedule"\$1. Dans la plupart des cas, il est préférable de placer la planification de référence sur l'objet de pipeline par défaut de manière à ce que tous les objets héritent cette planification. Ou, si le pipeline dispose d'une arborescence de planifications (planifications au sein de la planification maître), vous pouvez créer un objet parent ayant une référence de planification. Pour plus d'informations sur les exemples de configurations de planification facultatives, consultez [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html). | Objet de référence, par exemple, « schedule » : \$1"ref » : » myScheduleId «\$1 | 

 


****  

| Groupe obligatoire (l'un des groupes suivants est obligatoire) | Description | Type d'option | 
| --- | --- | --- | 
| runsOn | Le cluster Amazon EMR sur lequel cette tâche sera exécutée. | Objet de référence, par exemple, « RunSon » : \$1"ref » : » myEmrCluster Id "\$1 | 
| workerGroup | Groupe de travail. Utilisé pour les tâches d'acheminement. Si vous fournissez une valeur runsOn et que workerGroup existe, workerGroup est ignoré. | String | 

 


****  

| Champs facultatifs | Description | Type d'option | 
| --- | --- | --- | 
| attemptStatus | État de l'activité à distance le plus récemment rapporté. | String | 
| attemptTimeout | Délai d'achèvement de la tâche à distance. Si une valeur est définie, une activité à distance qui n'est pas exécutée dans le cadre de la période de départ définie peut être retentée. | Period | 
| dependsOn | Spécifie une dépendance sur un autre objet exécutable. | Objet de référence, par exemple, « DependsOn » : \$1"ref » : » myActivityId «\$1 | 
| failureAndRerunMode | Décrit le comportement du nœud de consommateurs lorsque les dépendances échouent ou sont à nouveau exécutées. | Énumération | 
| input | Emplacement des données d'entrée. | Objet de référence, par exemple, « input » : \$1"ref » : » myDataNode Id "\$1 | 
| lateAfterTimeout | Temps écoulé après le début du pipeline pendant lequel l'objet doit être terminé. Il est déclenché uniquement lorsque le type de planification n'est pas défini surondemand. | Period | 
| maxActiveInstances | Nombre maximal d'instances actives simultanées d'un composant. Les réexécutions ne sont pas comptabilisées dans le nombre d'instances actives. | Entier | 
| maximumRetries | Nombre maximal de nouvelles tentatives en cas d'échec. | Entier | 
| onFail | Action à exécuter en cas d'échec de l'objet actuel. | Objet de référence, par exemple, « onFail » : \$1"ref » : » myActionId «\$1 | 
| onLateAction | Actions à déclencher si un objet n'a pas encore été planifié ou n'est toujours pas terminé. | Objet de référence, par exemple, "onLateAction« : \$1" ref » : » myActionId «\$1 | 
| onSuccess | Action à exécuter en cas de réussite de l'objet actuel. | Objet de référence, par exemple, « onSuccess » : \$1"ref » : » myActionId «\$1 | 
| output | Emplacement des données de sortie. | Objet de référence, par exemple, « output » : \$1"ref » : » myDataNode Id "\$1 | 
| parent | Parent de l'objet actuel à partir duquel les emplacements sont hérités. | Objet de référence, par exemple, « parent » : \$1"ref » : » myBaseObject Id "\$1 | 
| pipelineLogUri | L'URI Amazon S3, tel que 's3 ://BucketName/Prefix/ 'pour le téléchargement des journaux pour le pipeline. | String | 
| postStepCommand | Scripts shell à exécuter une fois toutes les étapes terminées. Pour spécifier plusieurs scripts, jusqu'à 255, ajoutez plusieurs champs postStepCommand. | String | 
| precondition | Définit une condition préalable facultative. Un nœud de données n'est pas marqué « READY » tant que toutes les conditions préalables ne sont pas remplies. | Objet de référence, par exemple, « précondition » : \$1"ref » : » myPreconditionId «\$1 | 
| preStepCommand | Scripts shell à exécuter avant l'exécution de toute étape. Pour spécifier plusieurs scripts, jusqu'à 255, ajoutez plusieurs champs preStepCommand. | String | 
| reportProgressTimeout | Délai pour les appels successifs de travail à distance adressés à reportProgress. Si une valeur est définie, les activités à distance qui ne font pas état d'avancement pour la période spécifiée doivent être considérées comme bloquées et, par conséquent, retentées. | Period | 
| resizeClusterBeforeCourir |  Redimensionnez le cluster avant d'effectuer cette activité afin de l'adapter aux tables DynamoDB spécifiées en entrée ou en sortie.   Si vous `EmrActivity` utilisez un `DynamoDBDataNode` comme nœud de données d'entrée ou de sortie, et si vous définissez le `resizeClusterBeforeRunning` to`TRUE`, AWS Data Pipeline commencez à utiliser des types d'`m3.xlarge`instance. Vos choix de type d'instance sont alors remplacés par `m3.xlarge`, ce qui peut accroître vos coûts mensuels.   | Booléen | 
| resizeClusterMaxInstances | Limite du nombre maximal d'instances qui peuvent être demandées par l'algorithme de redimensionnement. | Entier | 
| retryDelay | Délai entre deux nouvelles tentatives. | Period | 
| scheduleType | Le type de planification vous permet de spécifier si les objets de votre définition de pipeline doivent être planifiés au début ou à la fin de l'intervalle. Les valeurs sont : cron, ondemand et timeseries (cron, à la demande et séries chronologiques). La planification timeseries signifie que les instances sont programmées à la fin de chaque intervalle. La planification cron signifie que les instances sont programmées au début de chaque intervalle. Une planification ondemand vous permet d'exécuter un pipeline une fois par activation. Vous n'avez pas à cloner ou à recréer le pipeline pour l'exécuter à nouveau. Si vous utilisez une planification ondemand, elle doit être spécifiée dans l'objet par défaut et être le seul scheduleType spécifié pour les objets du pipeline. Pour utiliser des pipelines ondemand, vous devez appeler l'opération ActivatePipeline pour chaque exécution suivante.  | Énumération | 
| step | Une ou plusieurs étapes que le cluster doit exécuter. Pour spécifier plusieurs étapes, jusqu'à 255, ajoutez plusieurs champs step. Utilisez des arguments séparés par des virgules saisis après le nom de fichier JAR ; par exemple, s3://amzn-s3-demo-bucket/MyWork.jar,arg1,arg2,arg3. | String | 

 


****  

| Champs liés à l'exécution | Description | Type d'option | 
| --- | --- | --- | 
| @activeInstances | Liste des objets d'instances actives actuellement planifiés. | Objet de référence, par exemple « ActiveInstances » : \$1"ref » : » myRunnableObject Id "\$1 | 
| @actualEndTime | Heure à laquelle l'exécution de l'objet s'est terminée. | DateTime | 
| @actualStartTime | Heure à laquelle l'exécution de l'objet a démarré. | DateTime | 
| cancellationReason | Motif de l'annulation si l'objet a été annulé. | String | 
| @cascadeFailedOn | Description de la chaîne de dépendances sur laquelle l'objet a échoué. | Objet de référence, par exemple, "cascadeFailedOn« : \$1" ref » : » myRunnableObject Id "\$1 | 
| emrStepLog | Les journaux d'étapes Amazon EMR sont disponibles uniquement pour les tentatives d'activité EMR | String | 
| errorId | errorId si l'objet a échoué. | String | 
| errorMessage | errorMessage si l'objet a échoué. | String | 
| errorStackTrace | Suivi de la pile d'erreurs si l'objet a échoué. | String | 
| @finishedTime | Heure à laquelle l'objet a terminé son exécution. | DateTime | 
| hadoopJobLog | Journaux de travail Hadoop disponibles sur les tentatives pour les activités EMR. | String | 
| @healthStatus | État de santé de l'objet qui reflète la réussite ou l'échec de la dernière instance qui a atteint un état résilié. | String | 
| @healthStatusFromInstanceId | ID du dernier objet d'instance qui atteint un état résilié. | String | 
| @ healthStatusUpdated Heure | Heure à laquelle l'état de santé a été mis à jour pour la dernière fois. | DateTime | 
| hostname | Nom d'hôte du client qui a sélectionné la tentative de tâche. | String | 
| @lastDeactivatedTime | Heure à laquelle l'objet a été désactivé pour la dernière fois. | DateTime | 
| @ latestCompletedRun Heure | Heure de la dernière exécution pour laquelle l'exécution s'est terminée. | DateTime | 
| @latestRunTime | Heure de la dernière exécution pour laquelle l'exécution a été planifiée. | DateTime | 
| @nextRunTime | Prochaine heure d'exécution planifiée. | DateTime | 
| reportProgressTime | Heure la plus récente pour laquelle l'activité distante a signalé une progression. | DateTime | 
| @scheduledEndTime | Heure de fin planifiée pour l'objet. | DateTime | 
| @scheduledStartTime | Heure de début planifiée pour l'objet. | DateTime | 
| @État | État de l'objet. | String | 
| @Version | Version du pipeline avec laquelle l'objet a été créé. | String | 
| @waitingOn | Description de la liste des dépendances sur laquelle l'objet est en attente. | Objet de référence, par exemple, « WaitingOn » : \$1"ref » : » myRunnableObject Id "\$1 | 

 


****  

| Champs système | Description | Type d'option | 
| --- | --- | --- | 
| @error | Erreur décrivant l'objet mal formé. | String | 
| @pipelineId | ID du pipeline auquel l'objet appartient. | String | 
| @sphere | La sphère d'un objet désigne sa place dans le cycle de vie : les objets « composant » entraînent les objets « instance » qui exécutent les objets « tentative ». | String | 

## Voir aussi
<a name="emractivity-seealso"></a>
+ [ShellCommandActivity](dp-object-shellcommandactivity.md)
+ [CopyActivity](dp-object-copyactivity.md)
+ [EmrCluster](dp-object-emrcluster.md)

# HadoopActivity
<a name="dp-object-hadoopactivity"></a>

 Exécute une MapReduce tâche sur un cluster. Le cluster peut être un cluster EMR géré par AWS Data Pipeline ou une autre ressource si vous en utilisez. TaskRunner HadoopActivity À utiliser lorsque vous souhaitez exécuter un travail en parallèle. Cela vous permet d'utiliser les ressources de planification du framework YARN ou du négociateur de MapReduce ressources dans Hadoop 1. Si vous souhaitez exécuter le travail de manière séquentielle à l'aide de l'action Amazon EMR Step, vous pouvez toujours utiliser. [EmrActivity](dp-object-emractivity.md)

## Exemples
<a name="hadoopactivity-example"></a>

**HadoopActivity à l'aide d'un cluster EMR géré par AWS Data Pipeline**  
L' HadoopActivity objet suivant utilise une EmrCluster ressource pour exécuter un programme :

```
 {
   "name": "MyHadoopActivity",
   "schedule": {"ref": "ResourcePeriod"},
   "runsOn": {"ref": “MyEmrCluster”},
   "type": "HadoopActivity",
   "preActivityTaskConfig":{"ref":"preTaskScriptConfig”},   
   "jarUri": "/home/hadoop/contrib/streaming/hadoop-streaming.jar",
   "argument": [
     "-files",
     “s3://elasticmapreduce/samples/wordcount/wordSplitter.py“,
     "-mapper",
     "wordSplitter.py",
     "-reducer",
     "aggregate",
     "-input",
     "s3://elasticmapreduce/samples/wordcount/input/",
     "-output",
     “s3://amzn-s3-demo-bucket/MyHadoopActivity/#{@pipelineId}/#{format(@scheduledStartTime,'YYYY-MM-dd')}"
   ],
   "maximumRetries": "0",
   "postActivityTaskConfig":{"ref":"postTaskScriptConfig”},
   "hadoopQueue" : “high”
 }
```

Voici le correspondant*MyEmrCluster*, qui configure les files d'attente FairScheduler et dans YARN pour Hadoop 2 : AMIs

```
{
  "id" : "MyEmrCluster",
  "type" : "EmrCluster",
   "hadoopSchedulerType" : "PARALLEL_FAIR_SCHEDULING",
  “amiVersion” : “3.7.0”,
  "bootstrapAction" : ["s3://Region.elasticmapreduce/bootstrap-actions/configure-hadoop,-z,yarn.scheduler.capacity.root.queues=low\,high\,default,-z,yarn.scheduler.capacity.root.high.capacity=50,-z,yarn.scheduler.capacity.root.low.capacity=10,-z,yarn.scheduler.capacity.root.default.capacity=30”]
}
```

Voici ce que EmrCluster vous utilisez pour configurer FairScheduler dans Hadoop 1 :

```
{
      "id": "MyEmrCluster",
      "type": "EmrCluster",    
      "hadoopSchedulerType": "PARALLEL_FAIR_SCHEDULING",
      "amiVersion": "2.4.8",
      "bootstrapAction": "s3://Region.elasticmapreduce/bootstrap-actions/configure-hadoop,-m,mapred.queue.names=low\\\\,high\\\\,default,-m,mapred.fairscheduler.poolnameproperty=mapred.job.queue.name"
          }
```

Les configurations suivantes CapacityScheduler pour EmrCluster Hadoop 2 sont les suivantes : AMIs

```
{
      "id": "MyEmrCluster",
      "type": "EmrCluster",
      "hadoopSchedulerType": "PARALLEL_CAPACITY_SCHEDULING",
      "amiVersion": "3.7.0",
      "bootstrapAction": "s3://Region.elasticmapreduce/bootstrap-actions/configure-hadoop,-z,yarn.scheduler.capacity.root.queues=low\\\\,high,-z,yarn.scheduler.capacity.root.high.capacity=40,-z,yarn.scheduler.capacity.root.low.capacity=60"
    }
```

**HadoopActivity en utilisant un cluster EMR existant**  
Dans cet exemple, vous utilisez workergroups et a TaskRunner pour exécuter un programme sur un cluster EMR existant. La définition de pipeline suivante permet HadoopActivity de : 
+ Exécutez un MapReduce programme uniquement sur *myWorkerGroup* des ressources. Pour de plus amples informations sur les groupes de travail, consultez [Exécution de travaux sur des ressources existantes à l'aide de Task Runner](dp-how-task-runner-user-managed.md).
+ Exécuter une preActivityTask configuration et une postActivityTask configuration

```
{
  "objects": [
    {
      "argument": [
        "-files",
        "s3://elasticmapreduce/samples/wordcount/wordSplitter.py",
        "-mapper",
        "wordSplitter.py",
        "-reducer",
        "aggregate",
        "-input",
        "s3://elasticmapreduce/samples/wordcount/input/",
        "-output",
        "s3://amzn-s3-demo-bucket/MyHadoopActivity/#{@pipelineId}/#{format(@scheduledStartTime,'YYYY-MM-dd')}"
      ],
      "id": "MyHadoopActivity",
      "jarUri": "/home/hadoop/contrib/streaming/hadoop-streaming.jar",
      "name": "MyHadoopActivity",
      "type": "HadoopActivity"
    },
    {
      "id": "SchedulePeriod",
      "startDateTime": "start_datetime",
      "name": "SchedulePeriod",
      "period": "1 day",
      "type": "Schedule",
      "endDateTime": "end_datetime"
    },
    {
      "id": "ShellScriptConfig",
      "scriptUri": "s3://amzn-s3-demo-bucket/scripts/preTaskScript.sh",
      "name": "preTaskScriptConfig",
      "scriptArgument": [
        "test",
        "argument"
      ],
      "type": "ShellScriptConfig"
    },
    {
      "id": "ShellScriptConfig",
      "scriptUri": "s3://amzn-s3-demo-bucket/scripts/postTaskScript.sh",
      "name": "postTaskScriptConfig",
      "scriptArgument": [
        "test",
        "argument"
      ],
      "type": "ShellScriptConfig"
    },
    {
      "id": "Default",
      "scheduleType": "cron",
      "schedule": {
        "ref": "SchedulePeriod"
      },
      "name": "Default",
      "pipelineLogUri": "s3://amzn-s3-demo-bucket/logs/2015-05-22T18:02:00.343Z642f3fe415",
      "maximumRetries": "0",    
      "workerGroup": "myWorkerGroup",
      "preActivityTaskConfig": {
        "ref": "preTaskScriptConfig"
      },
      "postActivityTaskConfig": {
        "ref": "postTaskScriptConfig"
      }    
    }
  ] 
}
```

## Syntaxe
<a name="hadoopactivity-syntax"></a>


****  

| Champs obligatoires | Description | Type d'option | 
| --- | --- | --- | 
| jarUri | Emplacement d'un fichier JAR dans Amazon S3 ou dans le système de fichiers local du cluster à exécuter HadoopActivity. | String | 

 


****  

| Champs d'invocation de l'objet | Description | Type d'option | 
| --- | --- | --- | 
| schedule | Cet objet est appelé dans le cadre de l'exécution d'un intervalle de planification. Les utilisateurs doivent spécifier une référence de planification à un autre objet pour définir l'ordre d'exécution des dépendances de l'objet. Les utilisateurs peuvent satisfaire à cette exigence en définissant explicitement un calendrier sur l'objet, par exemple en spécifiant « schedule » : \$1"ref » : "DefaultSchedule«\$1. Dans la plupart des cas, il est préférable de placer la planification de référence sur l'objet de pipeline par défaut de manière à ce que tous les objets héritent cette planification. Ou, si le pipeline dispose d'une arborescence de planifications (planifications au sein de la planification maître), les utilisateurs peuvent créer un objet parent ayant une référence de planification. Pour plus d'informations sur les exemples de configurations de planification facultatives, consultez [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html). | Objet de référence, par exemple « schedule » : \$1"ref » : » myScheduleId «\$1 | 

 


****  

| Groupe obligatoire (l'un des groupes suivants est obligatoire) | Description | Type d'option | 
| --- | --- | --- | 
| runsOn | Cluster EMR sur lequel la tâche s'exécute. | Objet de référence, par exemple « RunSon » : \$1"ref » : » myEmrCluster Id "\$1 | 
| workerGroup | Groupe de travail. Utilisé pour les tâches d'acheminement. Si vous fournissez une valeur runsOn et que workerGroup existe, workerGroup est ignoré. | String | 

 


****  

| Champs facultatifs | Description | Type d'option | 
| --- | --- | --- | 
| argument | Arguments à passer au fichier JAR. | String | 
| attemptStatus | État de l'activité à distance le plus récemment rapporté. | String | 
| attemptTimeout | Délai d'achèvement de la tâche à distance. Si une valeur est définie, une activité à distance qui n'est pas exécutée dans le cadre de la période de départ définie peut être retentée. | Period | 
| dependsOn | Spécifie une dépendance sur un autre objet exécutable. | Objet de référence, par exemple « DependsOn » : \$1"ref » : » myActivityId «\$1 | 
| failureAndRerunMode | Décrit le comportement du nœud de consommateurs lorsque les dépendances échouent ou sont à nouveau exécutées. | Énumération | 
| hadoopQueue | Nom de la file d'attente du planificateur Hadoop dans laquelle l'activité est envoyée. | String | 
| input | Emplacement des données d'entrée. | Objet de référence, par exemple « input » : \$1"ref » : » myDataNode Id "\$1 | 
| lateAfterTimeout | Temps écoulé après le début du pipeline pendant lequel l'objet doit être terminé. Il est déclenché uniquement lorsque le type de planification n'est pas défini surondemand. | Period | 
| mainClass | Classe principale du fichier JAR avec lequel vous exécutez HadoopActivity. | String | 
| maxActiveInstances | Nombre maximal d'instances actives simultanées d'un composant. Les réexécutions ne sont pas comptabilisées dans le nombre d'instances actives. | Entier | 
| maximumRetries | Nombre maximal de nouvelles tentatives en cas d'échec | Entier | 
| onFail | Action à exécuter en cas d'échec de l'objet actuel. | Objet de référence, par exemple « onFail » : \$1"ref » : » myActionId «\$1 | 
| onLateAction | Actions à déclencher si un objet n'a pas encore été planifié ou n'est toujours pas terminé. | Objet de référence, par exemple "onLateAction« : \$1" ref » : » myActionId «\$1 | 
| onSuccess | Action à exécuter en cas de réussite de l'objet actuel. | Objet de référence, par exemple « onSuccess » : \$1"ref » : » myActionId «\$1 | 
| output | Emplacement des données de sortie. | Objet de référence, par exemple « output » : \$1"ref » : » myDataNode Id "\$1 | 
| parent | Parent de l'objet actuel à partir duquel les emplacements sont hérités. | Objet de référence, par exemple « parent » : \$1"ref » : » myBaseObject Id "\$1 | 
| pipelineLogUri | L'URI S3 (tel que 's3 ://BucketName/Key/ ') pour le téléchargement des journaux pour le pipeline. | String | 
| postActivityTaskConfig | Script de configuration de post-activité à exécuter. Se compose d'un URI du script shell dans Amazon S3 et d'une liste d'arguments. | Objet de référence, par exemple "postActivityTaskConfig » : \$1"ref » : » myShellScript ConfigId «\$1 | 
| preActivityTaskConfig | Script de configuration de pré-activité à exécuter. Se compose d'un URI du script shell dans Amazon S3 et d'une liste d'arguments. | Objet de référence, par exemple "preActivityTaskConfig » : \$1"ref » : » myShellScript ConfigId «\$1 | 
| precondition | Définit une condition préalable facultative. Un nœud de données n'est pas marqué « READY » tant que toutes les conditions préalables ne sont pas remplies. | Objet de référence, par exemple « précondition » : \$1"ref » : » myPreconditionId «\$1 | 
| reportProgressTimeout | Délai pour les appels successifs de travail à distance adressés à reportProgress. Si une valeur est définie, les activités à distance qui ne font pas état d'avancement pour la période spécifiée doivent être considérées comme bloquées et, par conséquent, retentées. | Period | 
| retryDelay | Délai entre deux nouvelles tentatives. | Period | 
| scheduleType | Le type de planification vous permet de spécifier si les objets de votre définition de pipeline doivent être planifiés au début ou à la fin de l'intervalle. Dans la planification de type séries chronologiques, les instances sont planifiées à la fin de chaque intervalle et dans la planification de type cron, les instances sont planifiées au début de chaque intervalle. Une planification à la demande vous permet d'exécuter un pipeline une fois par activation. Cela signifie que vous n'avez pas à cloner ou à recréer le pipeline pour l'exécuter à nouveau. Si vous utilisez une planification à la demande, elle doit être spécifiée dans l'objet par défaut et être le seul scheduleType pour les objets du pipeline. Pour utiliser des pipelines à la demande, il suffit d'appeler l' ActivatePipeline opération pour chaque exécution suivante. Les valeurs sont : cron, ondemand et timeseries (cron, à la demande et séries chronologiques). | Énumération | 

 


****  

| Champs liés à l'exécution | Description | Type d'option | 
| --- | --- | --- | 
| @activeInstances | Liste des objets d'instances actives actuellement planifiés. | Objet de référence, par exemple « ActiveInstances » : \$1"ref » : » myRunnableObject Id "\$1 | 
| @actualEndTime | Heure à laquelle l'exécution de l'objet s'est terminée. | DateTime | 
| @actualStartTime | Heure à laquelle l'exécution de l'objet a démarré. | DateTime | 
| cancellationReason | Motif de l'annulation si l'objet a été annulé. | String | 
| @cascadeFailedOn | Description de la chaîne de dépendances sur laquelle l'objet a échoué. | Objet de référence, par exemple "cascadeFailedOn« : \$1" ref » : » myRunnableObject Id "\$1 | 
| emrStepLog | Journaux d'étapes EMR disponibles uniquement sur les tentatives d'activité EMR | String | 
| errorId | ID de l'erreur si l'objet a échoué. | String | 
| errorMessage | errorMessage si l'objet a échoué. | String | 
| errorStackTrace | Suivi de la pile d'erreurs si l'objet a échoué. | String | 
| @finishedTime | Heure à laquelle l'objet a terminé son exécution. | DateTime | 
| hadoopJobLog | Journaux de travail Hadoop disponibles sur les tentatives pour les activités EMR. | String | 
| @healthStatus | État de santé de l'objet qui reflète la réussite ou l'échec de la dernière instance qui a atteint un état résilié. | String | 
| @healthStatusFromInstanceId | ID du dernier objet d'instance qui atteint un état résilié. | String | 
| @ healthStatusUpdated Heure | Heure à laquelle l'état de santé a été mis à jour pour la dernière fois. | DateTime | 
| hostname | Nom d'hôte du client qui a sélectionné la tentative de tâche. | String | 
| @lastDeactivatedTime | Heure à laquelle l'objet a été désactivé pour la dernière fois. | DateTime | 
| @ latestCompletedRun Heure | Heure de la dernière exécution pour laquelle l'exécution s'est terminée. | DateTime | 
| @latestRunTime | Heure de la dernière exécution pour laquelle l'exécution a été planifiée. | DateTime | 
| @nextRunTime | Prochaine heure d'exécution planifiée. | DateTime | 
| reportProgressTime | Heure la plus récente pour laquelle l'activité distante a signalé une progression. | DateTime | 
| @scheduledEndTime | Heure de fin planifiée pour l'objet. | DateTime | 
| @scheduledStartTime | Heure de début planifiée pour l'objet. | DateTime | 
| @État | État de l'objet. | String | 
| @Version | Version du pipeline avec laquelle l'objet été créé. | String | 
| @waitingOn | Description de la liste des dépendances sur laquelle l'objet est en attente. | Objet de référence, par exemple « WaitingOn » : \$1"ref » : » myRunnableObject Id "\$1 | 

 


****  

| Champs système | Description | Type d'option | 
| --- | --- | --- | 
| @error | Erreur décrivant l'objet mal formé. | String | 
| @pipelineId | Id du pipeline auquel l'objet appartient. | String | 
| @sphere | La sphère d'un objet désigne sa place dans le cycle de vie : les objets « composant » entraînent les objets « instance » qui exécutent les objets « tentative ». | String | 

## Voir aussi
<a name="hadoopactivity-seealso"></a>
+ [ShellCommandActivity](dp-object-shellcommandactivity.md)
+ [CopyActivity](dp-object-copyactivity.md)
+ [EmrCluster](dp-object-emrcluster.md)

# HiveActivity
<a name="dp-object-hiveactivity"></a>

Exécute une requête Hive sur un cluster EMR. `HiveActivity`facilite la configuration d'une activité Amazon EMR et crée automatiquement des tables Hive en fonction des données d'entrée provenant d'Amazon S3 ou d'Amazon RDS. Il suffit de spécifier le HiveQL à exécuter sur les données source. AWS Data Pipeline crée automatiquement des tables Hive avec `${input1}``${input2}`,, etc., en fonction des champs de saisie de l'`HiveActivity`objet. 

Pour les entrées Amazon S3, le `dataFormat` champ est utilisé pour créer les noms des colonnes Hive. 

Pour les entrées MySQL (Amazon RDS), les noms de colonne de la requête SQL sont utilisés pour créer les noms de colonnes Hive.

**Note**  
Cette activité utilise la [sérialisation/désérialisation (Serde) CSV](https://cwiki.apache.org/confluence/display/Hive/CSV+Serde) de Hive.

## Exemple
<a name="hiveactivity-example"></a>

Voici un exemple de ce type d'objet. Cet objet référence trois autres objets que vous définissez dans le même fichier de définition du pipeline. `MySchedule` est un objet `Schedule`. `MyS3Input` et `MyS3Output` sont des objets de nœud de données.

```
{
  "name" : "ProcessLogData",
  "id" : "MyHiveActivity",
  "type" : "HiveActivity",
  "schedule" : { "ref": "MySchedule" },
  "hiveScript" : "INSERT OVERWRITE TABLE ${output1} select host,user,time,request,status,size from ${input1};",
  "input" : { "ref": "MyS3Input" },
  "output" : { "ref": "MyS3Output" },
  "runsOn" : { "ref": "MyEmrCluster" }
}
```

## Syntaxe
<a name="hiveactivity-syntax"></a>


****  

| Champs d'invocation de l'objet | Description | Type d'option | 
| --- | --- | --- | 
| schedule | Cet objet est appelé dans le cadre de l'exécution d'un intervalle de planification. Spécifiez une référence de planification à un autre objet pour définir l'ordre d'exécution des dépendances de l'objet. Vous pouvez satisfaire à cette exigence en définissant explicitement un calendrier sur l'objet, par exemple en spécifiant « schedule » : \$1"ref » : "DefaultSchedule«\$1. Dans la plupart des cas, il est préférable de placer la planification de référence sur l'objet de pipeline par défaut de manière à ce que tous les objets héritent cette planification. Ou, si le pipeline dispose d'une arborescence de planifications (planifications au sein de la planification maître), vous pouvez créer un objet parent ayant une référence de planification. Pour plus d'informations sur les exemples de configurations de planification facultatives, consultez [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html). | Objet de référence, par exemple « schedule » : \$1"ref » : » myScheduleId «\$1 | 

 


****  

| Groupe obligatoire (l'un des groupes suivants est obligatoire) | Description | Type d'option | 
| --- | --- | --- | 
| hiveScript | Script Hive à exécuter. | String | 
| scriptUri | Emplacement du script Hive à exécuter (par exemple, s3://scriptLocation). | String | 

 


****  

| Groupe obligatoire | Description | Type d'option | 
| --- | --- | --- | 
| runsOn | Cluster EMR sur lequel HiveActivity s'exécute. | Objet de référence, par exemple « RunSon » : \$1"ref » : » myEmrCluster Id "\$1 | 
| workerGroup | Groupe de travail. Utilisé pour les tâches d'acheminement. Si vous fournissez une valeur runsOn et que workerGroup existe, workerGroup est ignoré. | String | 
| input | Source de données d'entrée. | Objet de référence, tel que « input » : \$1"ref » : » myDataNode Id "\$1 | 
| output | Source de données de sortie. | Objet de référence, tel que « output » : \$1"ref » : » myDataNode Id "\$1 | 

 


****  

| Champs facultatifs | Description | Type d'option | 
| --- | --- | --- | 
| attemptStatus | État de l'activité à distance le plus récemment rapporté. | String | 
| attemptTimeout | Délai d'achèvement de la tâche à distance. Si une valeur est définie, une activité à distance qui n'est pas exécutée dans le cadre de la période de départ définie peut être retentée. | Period | 
| dependsOn | Spécifie une dépendance sur un autre objet exécutable. | Objet de référence, tel que « DependsOn » : \$1"ref » : » myActivityId «\$1 | 
| failureAndRerunMode | Décrit le comportement du nœud de consommateurs lorsque les dépendances échouent ou sont à nouveau exécutées. | Énumération | 
| hadoopQueue | Nom de la file d'attente du programmeur Hadoop dans laquelle la tâche sera envoyée. | String | 
| lateAfterTimeout | Temps écoulé après le début du pipeline pendant lequel l'objet doit être terminé. Il est déclenché uniquement lorsque le type de planification n'est pas défini surondemand. | Period | 
| maxActiveInstances | Nombre maximal d'instances actives simultanées d'un composant. Les réexécutions ne sont pas comptabilisées dans le nombre d'instances actives. | Entier | 
| maximumRetries | Nombre maximal de nouvelles tentatives en cas d'échec. | Entier | 
| onFail | Action à exécuter en cas d'échec de l'objet actuel. | Objet de référence, tel que « onFail » : \$1"ref » : » myActionId «\$1 | 
| onLateAction | Actions à déclencher si un objet n'a pas encore été planifié ou n'est toujours pas terminé. | Objet de référence, tel que "onLateAction« : \$1" ref » : » myActionId «\$1 | 
| onSuccess | Action à exécuter en cas de réussite de l'objet actuel. | Objet de référence, tel que « onSuccess » : \$1"ref » : » myActionId «\$1 | 
| parent | Parent de l'objet actuel à partir duquel les emplacements sont hérités. | Objet de référence, tel que « parent » : \$1"ref » : » myBaseObject Id "\$1 | 
| pipelineLogUri | L'URI S3 (tel que 's3 ://BucketName/Key/ ') pour le téléchargement des journaux pour le pipeline. | String | 
| postActivityTaskConfig | Script de configuration de post-activité à exécuter. Se compose d'un URI du script shell dans Amazon S3 et d'une liste d'arguments. | Objet de référence, tel que "postActivityTaskConfig » : \$1"ref » : » myShellScript ConfigId «\$1 | 
| preActivityTaskConfig | Script de configuration de pré-activité à exécuter. Se compose d'un URI du script shell dans Amazon S3 et d'une liste d'arguments. | Objet de référence, tel que "preActivityTaskConfig » : \$1"ref » : » myShellScript ConfigId «\$1 | 
| precondition | Définit une condition préalable facultative. Un nœud de données n'est pas marqué « READY » tant que toutes les conditions préalables ne sont pas remplies. | Objet de référence, tel que « précondition » : \$1"ref » : » myPreconditionId «\$1 | 
| reportProgressTimeout | Délai pour les appels successifs de travail à distance adressés à reportProgress. Si une valeur est définie, les activités à distance qui ne font pas état d'avancement pour la période spécifiée doivent être considérées comme bloquées et, par conséquent, retentées. | Period | 
| resizeClusterBeforeCourir | Redimensionnez le cluster avant d'effectuer cette activité pour prendre en charge les nœuds de données DynamoDB spécifiés en entrée ou en sortie.  Si votre activité utilise un `DynamoDBDataNode` comme nœud de données d'entrée ou de sortie, et si vous définissez le `resizeClusterBeforeRunning` to`TRUE`, AWS Data Pipeline commence à utiliser des types d'`m3.xlarge`instance. Vos choix de type d'instance sont alors remplacés par `m3.xlarge`, ce qui peut accroître vos coûts mensuels.  | Booléen | 
| resizeClusterMaxInstances | Limite du nombre maximal d'instances qui peuvent être demandées par l'algorithme de redimensionnement. | Entier | 
| retryDelay | Délai entre deux nouvelles tentatives. | Period | 
| scheduleType | Le type de planification vous permet de spécifier si les objets de votre définition de pipeline doivent être planifiés au début ou à la fin de l'intervalle. Dans la planification de type séries chronologiques, les instances sont planifiées à la fin de chaque intervalle et dans la planification de type cron, les instances sont planifiées au début de chaque intervalle. Une planification à la demande vous permet d'exécuter un pipeline une fois par activation. Cela signifie que vous n'avez pas à cloner ou à recréer le pipeline pour l'exécuter à nouveau. Si vous utilisez une planification à la demande, elle doit être spécifiée dans l'objet par défaut et être le seul scheduleType pour les objets du pipeline. Pour utiliser des pipelines à la demande, il suffit d'appeler l' ActivatePipeline opération pour chaque exécution suivante. Les valeurs sont : cron, ondemand et timeseries (cron, à la demande et séries chronologiques). | Énumération | 
| scriptVariable | Spécifie les variables de script qu'Amazon EMR doit transmettre à Hive lors de l'exécution d'un script. Les exemples de variables de script suivants transmettent, respectivement, une variable SAMPLE et une variable FILTER\$1DATE à Hive : SAMPLE=s3://elasticmapreduce/samples/hive-ads et FILTER\$1DATE=\$1\$1format(@scheduledStartTime,'YYYY-MM-dd')\$1%. Ce champ accepte plusieurs valeurs et fonctionne avec les champs script et scriptUri. En outre, scriptVariable fonctionne que l'étape soit définie sur true ou false. Ce champ est particulièrement utile pour envoyer des valeurs dynamiques à Hive en utilisant des expressions et des fonctions AWS Data Pipeline . | String | 
| étape | Détermine si le transit est activé avant ou après l'exécution du script. Ce champ n'étant pas autorisé avec Hive 11, utilisez un AMI Amazon EMR version 3.2.0 ou ultérieure. | Booléen | 

 


****  

| Champs liés à l'exécution | Description | Type d'option | 
| --- | --- | --- | 
| @activeInstances | Liste des objets d'instances actives actuellement planifiés. | Objet de référence, tel que « ActiveInstances » : \$1"ref » : » myRunnableObject Id "\$1 | 
| @actualEndTime | Heure à laquelle l'exécution de l'objet s'est terminée. | DateTime | 
| @actualStartTime | Heure à laquelle l'exécution de l'objet a démarré. | DateTime | 
| cancellationReason | Motif de l'annulation si l'objet a été annulé. | String | 
| @cascadeFailedOn | Description de la chaîne de dépendances sur laquelle l'objet a échoué. | Objet de référence, tel que "cascadeFailedOn« : \$1" ref » : » myRunnableObject Id "\$1 | 
| emrStepLog | Les journaux d'étapes Amazon EMR sont disponibles uniquement pour les tentatives d'activité EMR. | String | 
| errorId | ID de l'erreur si l'objet a échoué. | String | 
| errorMessage | errorMessage si l'objet a échoué. | String | 
| errorStackTrace | Suivi de la pile d'erreurs si l'objet a échoué. | String | 
| @finishedTime | Heure à laquelle l'objet a terminé son exécution. | DateTime | 
| hadoopJobLog | Journaux de travail Hadoop disponibles sur les tentatives pour les activités EMR. | String | 
| @healthStatus | État de santé de l'objet qui reflète la réussite ou l'échec de la dernière instance qui a atteint un état résilié. | String | 
| @healthStatusFromInstanceId | ID du dernier objet d'instance qui atteint un état résilié. | String | 
| @ healthStatusUpdated Heure | Heure à laquelle l'état de santé a été mis à jour pour la dernière fois. | DateTime | 
| hostname | Nom d'hôte du client qui a sélectionné la tentative de tâche. | String | 
| @lastDeactivatedTime | Heure à laquelle l'objet a été désactivé pour la dernière fois. | DateTime | 
| @ latestCompletedRun Heure | Heure de la dernière exécution pour laquelle l'exécution s'est terminée. | DateTime | 
| @latestRunTime | Heure de la dernière exécution pour laquelle l'exécution a été planifiée. | DateTime | 
| @nextRunTime | Prochaine heure d'exécution planifiée. | DateTime | 
| reportProgressTime | Heure la plus récente pour laquelle l'activité distante a signalé une progression. | DateTime | 
| @scheduledEndTime | Heure de fin planifiée pour un objet. | DateTime | 
| @scheduledStartTime | Heure de début planifiée pour un objet. | DateTime | 
| @État | État de l'objet. | String | 
| @Version | Version du pipeline avec laquelle l'objet été créé. | String | 
| @waitingOn | Description de la liste des dépendances sur laquelle l'objet est en attente. | Objet de référence, tel que « WaitingOn » : \$1"ref » : » myRunnableObject Id "\$1 | 

 


****  

| Champs système | Description | Type d'option | 
| --- | --- | --- | 
| @error | Erreur décrivant l'objet mal formé. | String | 
| @pipelineId | ID du pipeline auquel l'objet appartient. | String | 
| @sphere | La sphère d'un objet désigne sa place dans le cycle de vie : les objets « composant » entraînent les objets « instance » qui exécutent les objets « tentative ». | String | 

## Voir aussi
<a name="hiveactivity-seealso"></a>
+ [ShellCommandActivity](dp-object-shellcommandactivity.md)
+ [EmrActivity](dp-object-emractivity.md)

# HiveCopyActivity
<a name="dp-object-hivecopyactivity"></a>

Exécute une requête Hive sur un cluster EMR. `HiveCopyActivity`facilite la copie de données entre les tables DynamoDB. `HiveCopyActivity`accepte une instruction HiveQL pour filtrer les données d'entrée de DynamoDB au niveau des colonnes et des lignes.

## Exemple
<a name="hivecopyactivity-example"></a>

L'exemple suivant montre comment utiliser `HiveCopyActivity` et `DynamoDBExportDataFormat` pour copier les données d'un `DynamoDBDataNode` dans un autre, tout en filtrant les données, en fonction de la date et de l'heure.

```
{
  "objects": [
    {
      "id" : "DataFormat.1",
      "name" : "DataFormat.1",
      "type" : "DynamoDBExportDataFormat",
      "column" : "timeStamp BIGINT"
    },
    {
      "id" : "DataFormat.2",
      "name" : "DataFormat.2",
      "type" : "DynamoDBExportDataFormat"
    },
    {
      "id" : "DynamoDBDataNode.1",
      "name" : "DynamoDBDataNode.1",
      "type" : "DynamoDBDataNode",
      "tableName" : "item_mapped_table_restore_temp",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.1" }
    },
    {
      "id" : "DynamoDBDataNode.2",
      "name" : "DynamoDBDataNode.2",
      "type" : "DynamoDBDataNode",
      "tableName" : "restore_table",
      "region" : "us_west_1",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.2" }
    },
    {
      "id" : "EmrCluster.1",
      "name" : "EmrCluster.1",
      "type" : "EmrCluster",
      "schedule" : { "ref" : "ResourcePeriod" },
      "masterInstanceType" : "m1.xlarge",
      "coreInstanceCount" : "4"
    },
    {
      "id" : "HiveTransform.1",
      "name" : "Hive Copy Transform.1",
      "type" : "HiveCopyActivity",
      "input" : { "ref" : "DynamoDBDataNode.1" },
      "output" : { "ref" : "DynamoDBDataNode.2" },
      "schedule" :{ "ref" : "ResourcePeriod" },
      "runsOn" : { "ref" : "EmrCluster.1" },
      "filterSql" : "`timeStamp` > unix_timestamp(\"#{@scheduledStartTime}\", \"yyyy-MM-dd'T'HH:mm:ss\")"
    },
    {
      "id" : "ResourcePeriod",
      "name" : "ResourcePeriod",
      "type" : "Schedule",
      "period" : "1 Hour",
      "startDateTime" : "2013-06-04T00:00:00",
      "endDateTime" : "2013-06-04T01:00:00"
    }
  ]
}
```

## Syntaxe
<a name="hivecopyactivity-syntax"></a>


****  

| Champs d'invocation de l'objet | Description | Type d'option | 
| --- | --- | --- | 
| schedule | Cet objet est appelé dans le cadre de l'exécution d'un intervalle de planification. Les utilisateurs doivent spécifier une référence de planification à un autre objet pour définir l'ordre d'exécution des dépendances de l'objet. Les utilisateurs peuvent satisfaire à cette exigence en définissant explicitement un calendrier sur l'objet, par exemple en spécifiant « schedule » : \$1"ref » : "DefaultSchedule«\$1. Dans la plupart des cas, il est préférable de placer la planification de référence sur l'objet de pipeline par défaut de manière à ce que tous les objets héritent cette planification. Ou, si le pipeline dispose d'une arborescence de planifications (planifications au sein de la planification maître), les utilisateurs peuvent créer un objet parent ayant une référence de planification. Pour plus d'informations sur les exemples de configurations de planification facultatives, consultez [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html). | Objet de référence, par exemple « schedule » : \$1"ref » : » myScheduleId «\$1 | 

 


****  

| Groupe obligatoire (l'un des groupes suivants est obligatoire) | Description | Type d'option | 
| --- | --- | --- | 
| runsOn | Spécifie le cluster sur lequel lancer l'exécution. | Objet de référence, par exemple « RunSon » : \$1"ref » : » myResourceId «\$1 | 
| workerGroup | Groupe de travail. Utilisé pour les tâches d'acheminement. Si vous fournissez une valeur runsOn et que workerGroup existe, workerGroup est ignoré. | String | 

 


****  

| Champs facultatifs | Description | Type d'option | 
| --- | --- | --- | 
| attemptStatus | État de l'activité à distance le plus récemment rapporté. | String | 
| attemptTimeout | Délai d'achèvement de la tâche à distance. Si une valeur est définie, une activité à distance qui n'est pas exécutée dans le cadre de la période de départ définie peut être retentée. | Period | 
| dependsOn | Spécifie la dépendance sur un autre objet exécutable. | Objet de référence, par exemple « DependsOn » : \$1"ref » : » myActivityId «\$1 | 
| failureAndRerunMode | Décrit le comportement du nœud de consommateurs lorsque les dépendances échouent ou sont à nouveau exécutées. | Énumération | 
| filterSql | Fragment d'instruction SQL Hive qui filtre un sous-ensemble de données DynamoDB ou Amazon S3 à copier. Le filtre ne doit contenir que des prédicats et ne pas commencer par une WHERE clause, car il l' AWS Data Pipeline ajoute automatiquement. | String | 
| input | Source de données d'entrée. Ce champ doit correspondre à S3DataNode ou DynamoDBDataNode. Si vous utilisez DynamoDBNode, spécifiez un DynamoDBExportDataFormat. | Objet de référence, par exemple « input » : \$1"ref » : » myDataNode Id "\$1 | 
| lateAfterTimeout | Temps écoulé après le début du pipeline pendant lequel l'objet doit être terminé. Il est déclenché uniquement lorsque le type de planification n'est pas défini surondemand. | Period | 
| maxActiveInstances | Nombre maximal d'instances actives simultanées d'un composant. Les réexécutions ne sont pas comptabilisées dans le nombre d'instances actives. | Entier | 
| maximumRetries | Nombre maximal de nouvelles tentatives en cas d'échec. | Entier | 
| onFail | Action à exécuter en cas d'échec de l'objet actuel. | Objet de référence, par exemple « onFail » : \$1"ref » : » myActionId «\$1 | 
| onLateAction | Actions à déclencher si un objet n'a pas encore été planifié ou n'est toujours pas terminé. | Objet de référence, par exemple "onLateAction« : \$1" ref » : » myActionId «\$1 | 
| onSuccess | Action à exécuter en cas de réussite de l'objet actuel. | Objet de référence, par exemple « onSuccess » : \$1"ref » : » myActionId «\$1 | 
| output | Source de données de sortie. Si l'entrée est S3DataNode, la sortie doit être DynamoDBDataNode. Sinon, la valeur peut être S3DataNode ou DynamoDBDataNode. Si vous utilisez DynamoDBNode, spécifiez un DynamoDBExportDataFormat. | Objet de référence, par exemple « output » : \$1"ref » : » myDataNode Id "\$1 | 
| parent | Parent de l'objet actuel à partir duquel les emplacements sont hérités. | Objet de référence, par exemple « parent » : \$1"ref » : » myBaseObject Id "\$1 | 
| pipelineLogUri | L'URI Amazon S3, par exemple 's3://BucketName/Key/', pour le téléchargement des journaux pour le pipeline. | String | 
| postActivityTaskConfig | Script de configuration de post-activité à exécuter. Se compose d'un URI du script shell dans Amazon S3 et d'une liste d'arguments. | Objet de référence, par exemple "postActivityTaskConfig » : \$1"ref » : » myShellScript ConfigId «\$1 | 
| preActivityTaskConfig | Script de configuration de pré-activité à exécuter. Se compose d'un URI du script shell dans Amazon S3 et d'une liste d'arguments. | Objet de référence, par exemple "preActivityTaskConfig » : \$1"ref » : » myShellScript ConfigId «\$1 | 
| precondition | Définit une condition préalable facultative. Un nœud de données n'est pas marqué « READY » tant que toutes les conditions préalables ne sont pas remplies. | Objet de référence, par exemple « précondition » : \$1"ref » : » myPreconditionId «\$1 | 
| reportProgressTimeout | Délai pour les appels successifs de travail à distance adressés à reportProgress. Si une valeur est définie, les activités à distance qui ne font pas état d'avancement pour la période spécifiée doivent être considérées comme bloquées et, par conséquent, retentées. | Period | 
| resizeClusterBeforeCourir | Redimensionnez le cluster avant d'effectuer cette activité pour prendre en charge les nœuds de données DynamoDB spécifiés en entrée ou en sortie.  Si votre activité utilise un `DynamoDBDataNode` comme nœud de données d'entrée ou de sortie, et si vous définissez le `resizeClusterBeforeRunning` to`TRUE`, AWS Data Pipeline commence à utiliser des types d'`m3.xlarge`instance. Vos choix de type d'instance sont alors remplacés par `m3.xlarge`, ce qui peut accroître vos coûts mensuels.  | Booléen | 
| resizeClusterMaxInstances | Limite du nombre maximal d'instances qui peuvent être demandées par l'algorithme de redimensionnement. | Entier | 
| retryDelay | Délai entre deux nouvelles tentatives. | Period | 
| scheduleType | Le type de planification vous permet de spécifier si les objets de votre définition de pipeline doivent être planifiés au début ou à la fin de l'intervalle. Dans la planification de type séries chronologiques, les instances sont planifiées à la fin de chaque intervalle et dans la planification de type cron, les instances sont planifiées au début de chaque intervalle. Une planification à la demande vous permet d'exécuter un pipeline une fois par activation. Cela signifie que vous n'avez pas à cloner ou à recréer le pipeline pour l'exécuter à nouveau. Si vous utilisez une planification à la demande, elle doit être spécifiée dans l'objet par défaut et être le seul scheduleType pour les objets du pipeline. Pour utiliser des pipelines à la demande, il suffit d'appeler l' ActivatePipeline opération pour chaque exécution suivante. Les valeurs sont : cron, ondemand et timeseries (cron, à la demande et séries chronologiques). | Énumération | 

 


****  

| Champs liés à l'exécution | Description | Type d'option | 
| --- | --- | --- | 
| @activeInstances | Liste des objets d'instances actives actuellement planifiés. | Objet de référence, par exemple « ActiveInstances » : \$1"ref » : » myRunnableObject Id "\$1 | 
| @actualEndTime | Heure à laquelle l'exécution de l'objet s'est terminée. | DateTime | 
| @actualStartTime | Heure à laquelle l'exécution de l'objet a démarré. | DateTime | 
| cancellationReason | Motif de l'annulation si l'objet a été annulé. | String | 
| @cascadeFailedOn | Description de la chaîne de dépendances sur laquelle l'objet a échoué. | Objet de référence, par exemple "cascadeFailedOn« : \$1" ref » : » myRunnableObject Id "\$1 | 
| emrStepLog | Les journaux d'étapes Amazon EMR sont disponibles uniquement pour les tentatives d'activité EMR. | String | 
| errorId | ID de l'erreur si l'objet a échoué. | String | 
| errorMessage | errorMessage si l'objet a échoué. | String | 
| errorStackTrace | Suivi de la pile d'erreurs si l'objet a échoué. | String | 
| @finishedTime | Heure à laquelle l'objet a terminé son exécution. | DateTime | 
| hadoopJobLog | Journaux de travail Hadoop disponibles sur les tentatives pour les activités EMR. | String | 
| @healthStatus | État de santé de l'objet qui reflète la réussite ou l'échec de la dernière instance qui a atteint un état résilié. | String | 
| @healthStatusFromInstanceId | ID du dernier objet d'instance qui atteint un état résilié. | String | 
| @ healthStatusUpdated Heure | Heure à laquelle l'état de santé a été mis à jour pour la dernière fois. | DateTime | 
| hostname | Nom d'hôte du client qui a sélectionné la tentative de tâche. | String | 
| @lastDeactivatedTime | Heure à laquelle l'objet a été désactivé pour la dernière fois. | DateTime | 
| @ latestCompletedRun Heure | Heure de la dernière exécution pour laquelle l'exécution s'est terminée. | DateTime | 
| @latestRunTime | Heure de la dernière exécution pour laquelle l'exécution a été planifiée. | DateTime | 
| @nextRunTime | Prochaine heure d'exécution planifiée. | DateTime | 
| reportProgressTime | Heure la plus récente pour laquelle l'activité distante a signalé une progression. | DateTime | 
| @scheduledEndTime | Heure de fin planifiée pour l'objet. | DateTime | 
| @scheduledStartTime | Heure de début planifiée pour l'objet. | DateTime | 
| @État | État de l'objet. | String | 
| @Version | Version du pipeline avec laquelle l'objet été créé. | String | 
| @waitingOn | Description de la liste des dépendances sur laquelle l'objet est en attente. | Objet de référence, par exemple « WaitingOn » : \$1"ref » : » myRunnableObject Id "\$1 | 

 


****  

| Champs système | Description | Type d'option | 
| --- | --- | --- | 
| @error | Erreur décrivant l'objet mal formé. | String | 
| @pipelineId | Id du pipeline auquel l'objet appartient. | String | 
| @sphere | La sphère d'un objet désigne sa place dans le cycle de vie : les objets « composant » entraînent les objets « instance » qui exécutent les objets « tentative ». | String | 

## Voir aussi
<a name="hivecopyactivity-seealso"></a>
+ [ShellCommandActivity](dp-object-shellcommandactivity.md)
+ [EmrActivity](dp-object-emractivity.md)

# PigActivity
<a name="dp-object-pigactivity"></a>

PigActivity fournit un support natif pour les scripts Pig AWS Data Pipeline sans qu'il soit nécessaire d'utiliser `ShellCommandActivity` ou`EmrActivity`. En outre, PigActivity prend en charge le transfert des données. Lorsque le champ « stage » est défini sur true, AWS Data Pipeline prépare les données d'entrée en tant que schéma dans Pig, sans code supplémentaire de l'utilisateur. 

## Exemple
<a name="pigactivity-example"></a>

L'exemple de pipeline suivant montre comment utiliser `PigActivity`. L'exemple de pipeline effectue les étapes suivantes :
+ MyPigActivity1 charge des données depuis Amazon S3 et exécute un script Pig qui sélectionne quelques colonnes de données et les télécharge sur Amazon S3.
+ MyPigActivity2 charge la première sortie, sélectionne quelques colonnes et trois lignes de données, puis la télécharge sur Amazon S3 en tant que deuxième sortie.
+ MyPigActivity3 charge les deuxièmes données de sortie, insère deux lignes de données et uniquement la colonne nommée « cinquième » sur Amazon RDS.
+ MyPigActivity4 charge les données Amazon RDS, sélectionne la première ligne de données et les télécharge sur Amazon S3.

```
{
  "objects": [
    {
      "id": "MyInputData1",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "directoryPath": "s3://amzn-s3-demo-bucket/pigTestInput",
      "name": "MyInputData1",
      "dataFormat": {
        "ref": "MyInputDataType1"
      },
      "type": "S3DataNode"
    },
    {
      "id": "MyPigActivity4",
      "scheduleType": "CRON",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "input": {
        "ref": "MyOutputData3"
      },
      "pipelineLogUri": "s3://amzn-s3-demo-bucket/path/",
      "name": "MyPigActivity4",
      "runsOn": {
        "ref": "MyEmrResource"
      },
      "type": "PigActivity",
      "dependsOn": {
        "ref": "MyPigActivity3"
      },
      "output": {
        "ref": "MyOutputData4"
      },
      "script": "B = LIMIT ${input1} 1; ${output1} = FOREACH B GENERATE one;",
      "stage": "true"
    },
    {
      "id": "MyPigActivity3",
      "scheduleType": "CRON",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "input": {
        "ref": "MyOutputData2"
      },
      "pipelineLogUri": "s3://amzn-s3-demo-bucket/path",
      "name": "MyPigActivity3",
      "runsOn": {
        "ref": "MyEmrResource"
      },
      "script": "B = LIMIT ${input1} 2; ${output1} = FOREACH B GENERATE Fifth;",
      "type": "PigActivity",
      "dependsOn": {
        "ref": "MyPigActivity2"
      },
      "output": {
        "ref": "MyOutputData3"
      },
      "stage": "true"
    },
    {
      "id": "MyOutputData2",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "name": "MyOutputData2",
      "directoryPath": "s3://amzn-s3-demo-bucket/PigActivityOutput2",
      "dataFormat": {
        "ref": "MyOutputDataType2"
      },
      "type": "S3DataNode"
    },
    {
      "id": "MyOutputData1",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "name": "MyOutputData1",
      "directoryPath": "s3://amzn-s3-demo-bucket/PigActivityOutput1",
      "dataFormat": {
        "ref": "MyOutputDataType1"
      },
      "type": "S3DataNode"
    },
    {
      "id": "MyInputDataType1",
      "name": "MyInputDataType1",
      "column": [
        "First STRING",
        "Second STRING",
        "Third STRING",
        "Fourth STRING",
        "Fifth STRING",
        "Sixth STRING",
        "Seventh STRING",
        "Eighth STRING",
        "Ninth STRING",
        "Tenth STRING"
      ],
      "inputRegEx": "^(\\\\S+) (\\\\S+) (\\\\S+) (\\\\S+) (\\\\S+) (\\\\S+) (\\\\S+) (\\\\S+) (\\\\S+) (\\\\S+)",
      "type": "RegEx"
    },
    {
      "id": "MyEmrResource",
      "region": "us-east-1",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "keyPair": "example-keypair",
      "masterInstanceType": "m1.small",
      "enableDebugging": "true",
      "name": "MyEmrResource",
      "actionOnTaskFailure": "continue",
      "type": "EmrCluster"
    },
    {
      "id": "MyOutputDataType4",
      "name": "MyOutputDataType4",
      "column": "one STRING",
      "type": "CSV"
    },
    {
      "id": "MyOutputData4",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "directoryPath": "s3://amzn-s3-demo-bucket/PigActivityOutput3",
      "name": "MyOutputData4",
      "dataFormat": {
        "ref": "MyOutputDataType4"
      },
      "type": "S3DataNode"
    },
    {
      "id": "MyOutputDataType1",
      "name": "MyOutputDataType1",
      "column": [
        "First STRING",
        "Second STRING",
        "Third STRING",
        "Fourth STRING",
        "Fifth STRING",
        "Sixth STRING",
        "Seventh STRING",
        "Eighth STRING"
      ],
      "columnSeparator": "*",
      "type": "Custom"
    },
    {
      "id": "MyOutputData3",
      "username": "___",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "insertQuery": "insert into #{table} (one) values (?)",
      "name": "MyOutputData3",
      "*password": "___",
      "runsOn": {
        "ref": "MyEmrResource"
      },
      "connectionString": "jdbc:mysql://example-database-instance:3306/example-database",
      "selectQuery": "select * from #{table}",
      "table": "example-table-name",
      "type": "MySqlDataNode"
    },
    {
      "id": "MyOutputDataType2",
      "name": "MyOutputDataType2",
      "column": [
        "Third STRING",
        "Fourth STRING",
        "Fifth STRING",
        "Sixth STRING",
        "Seventh STRING",
        "Eighth STRING"
      ],
      "type": "TSV"
    },
    {
      "id": "MyPigActivity2",
      "scheduleType": "CRON",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "input": {
        "ref": "MyOutputData1"
      },
      "pipelineLogUri": "s3://amzn-s3-demo-bucket/path",
      "name": "MyPigActivity2",
      "runsOn": {
        "ref": "MyEmrResource"
      },
      "dependsOn": {
        "ref": "MyPigActivity1"
      },
      "type": "PigActivity",
      "script": "B = LIMIT ${input1} 3; ${output1} = FOREACH B GENERATE Third, Fourth, Fifth, Sixth, Seventh, Eighth;",
      "output": {
        "ref": "MyOutputData2"
      },
      "stage": "true"
    },
    {
      "id": "MyEmrResourcePeriod",
      "startDateTime": "2013-05-20T00:00:00",
      "name": "MyEmrResourcePeriod",
      "period": "1 day",
      "type": "Schedule",
      "endDateTime": "2013-05-21T00:00:00"
    },
    {
      "id": "MyPigActivity1",
      "scheduleType": "CRON",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "input": {
        "ref": "MyInputData1"
      },
      "pipelineLogUri": "s3://amzn-s3-demo-bucket/path",
      "scriptUri": "s3://amzn-s3-demo-bucket/script/pigTestScipt.q",
      "name": "MyPigActivity1",
      "runsOn": {
        "ref": "MyEmrResource"
      },
      "scriptVariable": [
        "column1=First",
        "column2=Second",
        "three=3"
      ],
      "type": "PigActivity",
      "output": {
        "ref": "MyOutputData1"
      },
      "stage": "true"
    }
  ]
}
```

Le contenu de `pigTestScript.q` est le suivant.

```
B = LIMIT ${input1} $three; ${output1} = FOREACH B GENERATE $column1, $column2, Third, Fourth, Fifth, Sixth, Seventh, Eighth;
```

## Syntaxe
<a name="pigactivity-syntax"></a>


****  

| Champs d'invocation de l'objet | Description | Type d'option | 
| --- | --- | --- | 
| schedule | Cet objet est appelé dans le cadre de l'exécution d'un intervalle de planification. Les utilisateurs doivent spécifier une référence de planification à un autre objet pour définir l'ordre d'exécution des dépendances de l'objet. Les utilisateurs peuvent satisfaire à cette exigence en définissant explicitement un calendrier sur l'objet, par exemple en spécifiant « schedule » : \$1"ref » : "DefaultSchedule«\$1. Dans la plupart des cas, il est préférable de placer la planification de référence sur l'objet de pipeline par défaut de manière à ce que tous les objets héritent cette planification. Ou, si le pipeline dispose d'une arborescence de planifications (planifications au sein de la planification maître), les utilisateurs peuvent créer un objet parent ayant une référence de planification. Pour plus d'informations sur les exemples de configurations de planification facultatives, consultez [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html). | Objet de référence, par exemple, « schedule » : \$1"ref » : » myScheduleId «\$1 | 

 


****  

| Groupe obligatoire (l'un des groupes suivants est obligatoire) | Description | Type d'option | 
| --- | --- | --- | 
| script | Script Pig à exécuter. | String | 
| scriptUri | Emplacement du script Pig à exécuter (par exemple, s3://scriptLocation). | String | 

 


****  

| Groupe obligatoire (l'un des groupes suivants est obligatoire) | Description | Type d'option | 
| --- | --- | --- | 
| runsOn | Cluster EMR sur lequel cela s' PigActivity exécute. | Objet de référence, par exemple, « RunSon » : \$1"ref » : » myEmrCluster Id "\$1 | 
| workerGroup | Groupe de travail. Utilisé pour les tâches d'acheminement. Si vous fournissez une valeur runsOn et que workerGroup existe, workerGroup est ignoré. | String | 

 


****  

| Champs facultatifs | Description | Type d'option | 
| --- | --- | --- | 
| attemptStatus | État de l'activité à distance le plus récemment rapporté. | String | 
| attemptTimeout | Délai d'achèvement de la tâche à distance. Si une valeur est définie, une activité à distance qui n'est pas exécutée dans le cadre de la période de départ définie peut être retentée. | Period | 
| dependsOn | Spécifie la dépendance sur un autre objet exécutable. | Objet de référence, par exemple, « DependsOn » : \$1"ref » : » myActivityId «\$1 | 
| failureAndRerunMode | Décrit le comportement du nœud de consommateurs lorsque les dépendances échouent ou sont à nouveau exécutées. | Énumération | 
| input | Source de données d'entrée. | Objet de référence, par exemple, « input » : \$1"ref » : » myDataNode Id "\$1 | 
| lateAfterTimeout | Temps écoulé après le début du pipeline pendant lequel l'objet doit être terminé. Il est déclenché uniquement lorsque le type de planification n'est pas défini surondemand. | Period | 
| maxActiveInstances | Nombre maximal d'instances actives simultanées d'un composant. Les réexécutions ne sont pas comptabilisées dans le nombre d'instances actives. | Entier | 
| maximumRetries | Nombre maximal de nouvelles tentatives en cas d'échec. | Entier | 
| onFail | Action à exécuter en cas d'échec de l'objet actuel. | Objet de référence, par exemple, « onFail » : \$1"ref » : » myActionId «\$1 | 
| onLateAction | Actions à déclencher si un objet n'a pas encore été planifié ou n'est toujours pas terminé. | Objet de référence, par exemple, "onLateAction« : \$1" ref » : » myActionId «\$1 | 
| onSuccess | Action à exécuter en cas de réussite de l'objet actuel. | Objet de référence, par exemple, « onSuccess » : \$1"ref » : » myActionId «\$1 | 
| output | Source de données de sortie. | Objet de référence, par exemple, « output » : \$1"ref » : » myDataNode Id "\$1 | 
| parent | Parent de l'objet actuel à partir duquel les emplacements sont hérités. | Objet de référence, par exemple, « parent » : \$1"ref » : » myBaseObject Id "\$1 | 
| pipelineLogUri | L'URI Amazon S3 (tel que 's3 ://BucketName/Key/ ') pour le téléchargement des journaux pour le pipeline. | String | 
| postActivityTaskConfig | Script de configuration de post-activité à exécuter. Il s'agit d'un URI du script shell dans Amazon S33 et d'une liste d'arguments. | Objet de référence, par exemple, "postActivityTaskConfig » : \$1"ref » : » myShellScript ConfigId «\$1 | 
| preActivityTaskConfig | Script de configuration de pré-activité à exécuter. Se compose d'un URI du script shell dans Amazon S3 et d'une liste d'arguments. | Objet de référence, par exemple, "preActivityTaskConfig » : \$1"ref » : » myShellScript ConfigId «\$1 | 
| precondition | Définit une condition préalable facultative. Un nœud de données n'est pas marqué « READY » tant que toutes les conditions préalables ne sont pas remplies. | Objet de référence, par exemple, « précondition » : \$1"ref » : » myPreconditionId «\$1 | 
| reportProgressTimeout | Délai pour les appels successifs de travail à distance adressés à reportProgress. Si une valeur est définie, les activités à distance qui ne font pas état d'avancement pour la période spécifiée doivent être considérées comme bloquées et, par conséquent, retentées. | Period | 
| resizeClusterBeforeCourir | Redimensionnez le cluster avant d'effectuer cette activité pour prendre en charge les nœuds de données DynamoDB spécifiés en entrée ou en sortie. Si votre activité utilise un `DynamoDBDataNode` comme nœud de données d'entrée ou de sortie, et si vous définissez le `resizeClusterBeforeRunning` to`TRUE`, AWS Data Pipeline commence à utiliser des types d'`m3.xlarge`instance. Vos choix de type d'instance sont alors remplacés par `m3.xlarge`, ce qui peut accroître vos coûts mensuels.  | Booléen | 
| resizeClusterMaxInstances | Limite du nombre maximal d'instances qui peuvent être demandées par l'algorithme de redimensionnement. | Entier | 
| retryDelay | Délai entre deux nouvelles tentatives. | Period | 
| scheduleType | Le type de planification vous permet de spécifier si les objets de votre définition de pipeline doivent être planifiés au début ou à la fin de l'intervalle. Dans la planification de type séries chronologiques, les instances sont planifiées à la fin de chaque intervalle et dans la planification de type cron, les instances sont planifiées au début de chaque intervalle. Une planification à la demande vous permet d'exécuter un pipeline une fois par activation. Cela signifie que vous n'avez pas à cloner ou à recréer le pipeline pour l'exécuter à nouveau. Si vous utilisez une planification à la demande, elle doit être spécifiée dans l'objet par défaut et être le seul scheduleType pour les objets du pipeline. Pour utiliser des pipelines à la demande, il suffit d'appeler l' ActivatePipeline opération pour chaque exécution suivante. Les valeurs sont : cron, ondemand et timeseries (cron, à la demande et séries chronologiques). | Énumération | 
| scriptVariable | Arguments à transmettre au script Pig. Vous pouvez utiliser scriptVariable avec script ou scriptUri. | String | 
| étape | Détermine si le staging est activé et autorise votre script Pig à accéder aux tables de données intermédiaires, telles que \$1 \$1INPUT1\$1 et \$1 \$1OUTPUT1\$1. | Booléen | 

 


****  

| Champs liés à l'exécution | Description | Type d'option | 
| --- | --- | --- | 
| @activeInstances | Liste des objets d'instances actives actuellement planifiés. | Objet de référence, par exemple, « ActiveInstances » : \$1"ref » : » myRunnableObject Id "\$1 | 
| @actualEndTime | Heure à laquelle l'exécution de l'objet s'est terminée. | DateTime | 
| @actualStartTime | Heure à laquelle l'exécution de l'objet a démarré. | DateTime | 
| cancellationReason | Motif de l'annulation si l'objet a été annulé. | String | 
| @cascadeFailedOn | Description de la chaîne de dépendances sur laquelle l'objet a échoué. | Objet de référence, par exemple, "cascadeFailedOn« : \$1" ref » : » myRunnableObject Id "\$1 | 
| emrStepLog | Les journaux d'étapes Amazon EMR sont disponibles uniquement pour les tentatives d'activité EMR. | String | 
| errorId | ID de l'erreur si l'objet a échoué. | String | 
| errorMessage | errorMessage si l'objet a échoué. | String | 
| errorStackTrace | Suivi de la pile d'erreurs si l'objet a échoué. | String | 
| @finishedTime | Heure à laquelle l'objet a terminé son exécution. | DateTime | 
| hadoopJobLog | Journaux de travail Hadoop disponibles sur les tentatives pour les activités EMR. | String | 
| @healthStatus | État de santé de l'objet qui reflète la réussite ou l'échec de la dernière instance qui a atteint un état résilié. | String | 
| @healthStatusFromInstanceId | ID du dernier objet d'instance qui atteint un état résilié. | String | 
| @ healthStatusUpdated Heure | Heure à laquelle l'état de santé a été mis à jour pour la dernière fois. | DateTime | 
| hostname | Nom d'hôte du client qui a sélectionné la tentative de tâche. | String | 
| @lastDeactivatedTime | Heure à laquelle l'objet a été désactivé pour la dernière fois. | DateTime | 
| @ latestCompletedRun Heure | Heure de la dernière exécution pour laquelle l'exécution s'est terminée. | DateTime | 
| @latestRunTime | Heure de la dernière exécution pour laquelle l'exécution a été planifiée. | DateTime | 
| @nextRunTime | Prochaine heure d'exécution planifiée. | DateTime | 
| reportProgressTime | Heure la plus récente pour laquelle l'activité distante a signalé une progression. | DateTime | 
| @scheduledEndTime | Heure de fin planifiée pour l'objet. | DateTime | 
| @scheduledStartTime | Heure de début planifiée pour l'objet. | DateTime | 
| @État | État de l'objet. | String | 
| @Version | Version du pipeline avec laquelle l'objet a été créé. | String | 
| @waitingOn | Description de la liste des dépendances sur laquelle l'objet est en attente. | Objet de référence, par exemple, « WaitingOn » : \$1"ref » : » myRunnableObject Id "\$1 | 

 


****  

| Champs système | Description | Type d'option | 
| --- | --- | --- | 
| @error | Erreur décrivant l'objet mal formé. | String | 
| @pipelineId | ID du pipeline auquel l'objet appartient. | String | 
| @sphere | La sphère d'un objet désigne sa place dans le cycle de vie : les objets « composant » entraînent les objets « instance » qui exécutent les objets « tentative ». | String | 

## Voir aussi
<a name="pigactivity-seealso"></a>
+ [ShellCommandActivity](dp-object-shellcommandactivity.md)
+ [EmrActivity](dp-object-emractivity.md)

# RedshiftCopyActivity
<a name="dp-object-redshiftcopyactivity"></a>

Copie les données depuis DynamoDB ou Amazon S3 vers Amazon Redshift. Vous pouvez charger les données dans une nouvelle table ou les fusionner facilement dans une table existante.

Voici une présentation d'un cas d'utilisation dans lequel vous pouvez utiliser `RedshiftCopyActivity` :

1. Commencez par utiliser AWS Data Pipeline pour stocker vos données dans Amazon S3. 

1. `RedshiftCopyActivity`À utiliser pour déplacer les données d'Amazon RDS et d'Amazon EMR vers Amazon Redshift.

   Cela vous permet de charger vos données dans Amazon Redshift où vous pouvez les analyser.

1. [SqlActivity](dp-object-sqlactivity.md)À utiliser pour exécuter des requêtes SQL sur les données que vous avez chargées dans Amazon Redshift.

 En outre, `RedshiftCopyActivity` prend en charge un fichier manifeste et vous permet donc d'utiliser un `S3DataNode`. Pour de plus amples informations, veuillez consulter [S3 DataNode](dp-object-s3datanode.md).

## Exemple
<a name="redshiftcopyactivity-example"></a>

Voici un exemple de ce type d'objet. 

Pour prendre en charge les formats de conversion, cet exemple utilise les paramètres de conversion spéciaux [EMPTYASNULL](https://docs.aws.amazon.com/redshift/latest/dg/copy-parameters-data-conversion.html#copy-emptyasnull) et [IGNOREBLANKLINES](https://docs.aws.amazon.com/redshift/latest/dg/copy-parameters-data-conversion.html#copy-ignoreblanklines) dans `commandOptions`. Pour plus d'informations, consultez la section [Paramètres de conversion des données](https://docs.aws.amazon.com/redshift/latest/dg/copy-parameters-data-conversion.html) dans le manuel *Amazon Redshift Database Developer Guide*.

```
{
  "id" : "S3ToRedshiftCopyActivity",
  "type" : "RedshiftCopyActivity",
  "input" : { "ref": "MyS3DataNode" },
  "output" : { "ref": "MyRedshiftDataNode" },
  "insertMode" : "KEEP_EXISTING",
  "schedule" : { "ref": "Hour" },
  "runsOn" : { "ref": "MyEc2Resource" },
  "commandOptions": ["EMPTYASNULL", "IGNOREBLANKLINES"]
}
```

L'exemple de définition de pipeline suivant illustre une activité qui utilise le mode d'insertion `APPEND` :

```
{
  "objects": [
    {
      "id": "CSVId1",
      "name": "DefaultCSV1",
      "type": "CSV"
    },
    {
      "id": "RedshiftDatabaseId1",
      "databaseName": "dbname",
      "username": "user",
      "name": "DefaultRedshiftDatabase1",
      "*password": "password",
      "type": "RedshiftDatabase",
      "clusterId": "redshiftclusterId"
    },
    {
      "id": "Default",
      "scheduleType": "timeseries",
      "failureAndRerunMode": "CASCADE",
      "name": "Default",
      "role": "DataPipelineDefaultRole",
      "resourceRole": "DataPipelineDefaultResourceRole"
    },
    {
      "id": "RedshiftDataNodeId1",
      "schedule": {
        "ref": "ScheduleId1"
      },
      "tableName": "orders",
      "name": "DefaultRedshiftDataNode1",
      "createTableSql": "create table StructuredLogs (requestBeginTime CHAR(30) PRIMARY KEY DISTKEY SORTKEY, requestEndTime CHAR(30), hostname CHAR(100), requestDate varchar(20));",
      "type": "RedshiftDataNode",
      "database": {
        "ref": "RedshiftDatabaseId1"
      }
    },
    {
      "id": "Ec2ResourceId1",
      "schedule": {
        "ref": "ScheduleId1"
      },
      "securityGroups": "MySecurityGroup",
      "name": "DefaultEc2Resource1",
      "role": "DataPipelineDefaultRole",
      "logUri": "s3://myLogs",
      "resourceRole": "DataPipelineDefaultResourceRole",
      "type": "Ec2Resource"
    },
    {
      "id": "ScheduleId1",
      "startDateTime": "yyyy-mm-ddT00:00:00",
      "name": "DefaultSchedule1",
      "type": "Schedule",
      "period": "period",
      "endDateTime": "yyyy-mm-ddT00:00:00"
    },
    {
      "id": "S3DataNodeId1",
      "schedule": {
        "ref": "ScheduleId1"
      },
      "filePath": "s3://datapipeline-us-east-1/samples/hive-ads-samples.csv",
      "name": "DefaultS3DataNode1",
      "dataFormat": {
        "ref": "CSVId1"
      },
      "type": "S3DataNode"
    },
    {
      "id": "RedshiftCopyActivityId1",
      "input": {
        "ref": "S3DataNodeId1"
      },
      "schedule": {
        "ref": "ScheduleId1"
      },
      "insertMode": "APPEND",
      "name": "DefaultRedshiftCopyActivity1",
      "runsOn": {
        "ref": "Ec2ResourceId1"
      },
      "type": "RedshiftCopyActivity",
      "output": {
        "ref": "RedshiftDataNodeId1"
      }
    }
  ]
}
```

`APPEND`L'opération ajoute des éléments à une table, quelles que soient les clés primaires ou les clés de tri. Par exemple, si vous avez le tableau suivant, vous pouvez ajouter un enregistrement avec les mêmes valeurs d'ID et d'utilisateur.

```
ID(PK)     USER
1          aaa
2          bbb
```

Vous pouvez ajouter un enregistrement avec les mêmes valeurs d'ID et d'utilisateur.

```
ID(PK)     USER
1          aaa
2          bbb
1          aaa
```

**Note**  
Si une opération `APPEND` est interrompue et retentée, le pipeline de réexécution résultant ajoute potentiellement depuis le début. Comme cela peut entraîner de nouvelles duplications, soyez conscient de ce comportement, en particulier si vous avez une logique qui comptabilise le nombre de lignes.

Pour obtenir un didacticiel, consultez [Copiez des données sur Amazon Redshift à l'aide de AWS Data Pipeline](dp-copydata-redshift.md).

## Syntaxe
<a name="redshiftcopyactivity-syntax"></a>


****  

| Champs obligatoires | Description | Type d'option | 
| --- | --- | --- | 
| insertMode |   Détermine AWS Data Pipeline le sort des données préexistantes de la table cible qui chevauchent les lignes des données à charger. Les valeurs valides sont : `KEEP_EXISTING`, `OVERWRITE_EXISTING`, `TRUNCATE` et `APPEND`. `KEEP_EXISTING` ajoute de nouvelles lignes à la table, en conservant toutes les lignes existantes non modifiées. `KEEP_EXISTING` et` OVERWRITE_EXISTING` utilise les clés primaire, de tri et de distribution pour identifier les lignes entrantes à associer aux lignes existantes. Consultez la section [Mise à jour et insertion de nouvelles données](https://docs.aws.amazon.com/redshift/latest/dg/t_updating-inserting-using-staging-tables-.html) dans le manuel Amazon *Redshift Database* Developer Guide.  `TRUNCATE` supprime toutes les données de la table de destination avant d'écrire les nouvelles données.  `APPEND` ajoute tous les enregistrements à la fin de la table Redshift. `APPEND` ne nécessite aucune clé primaire, de distribution ou de tri, par conséquent, des doublons potentiels peuvent être ajoutés.  | Énumération | 

 


****  

| Champs d'invocation de l'objet | Description | Type d'option | 
| --- | --- | --- | 
| schedule |  Cet objet est appelé dans le cadre de l'exécution d'un intervalle de planification.  Spécifiez une référence de planification à un autre objet pour définir l'ordre d'exécution des dépendances de l'objet.  Dans la plupart des cas, nous vous recommandons de placer la planification de référence sur l'objet de pipeline par défaut de manière à ce que tous les objets héritent cette planification. Vous pouvez, par exemple, définir explicitement une planification sur l'objet en spécifiant `"schedule": {"ref": "DefaultSchedule"}`.  Si la planification maître de votre pipeline contient des planifications imbriquées, créez un objet parent ayant une référence de planification.  Pour obtenir des exemples de configurations de planification facultatives, consultez la section [Planification](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html).   | Objet de référence, tel que : "schedule":\$1"ref":"myScheduleId"\$1 | 

 


****  

| Groupe obligatoire (l'un des groupes suivants est obligatoire) | Description | Type d'option | 
| --- | --- | --- | 
| runsOn | Ressource de calcul pour exécuter l'activité ou la commande. Par exemple, une instance Amazon EC2 ou un cluster Amazon EMR. | Objet de référence, par exemple « RunSon » : \$1"ref » : » myResourceId «\$1 | 
| workerGroup | Groupe de travail. Utilisé pour les tâches d'acheminement. Si vous fournissez une valeur runsOn et que workerGroup existe, workerGroup est ignoré. | String | 

 


****  

| Champs facultatifs | Description | Type d'option | 
| --- | --- | --- | 
| attemptStatus | État de l'activité à distance le plus récemment rapporté. | String | 
| attemptTimeout | Délai d'achèvement de la tâche à distance. Si une valeur est définie, une activité à distance qui n'est pas exécutée dans le cadre de la période de départ définie peut être retentée. | Period | 
| commandOptions |  Prend des paramètres à transmettre au nœud de données Amazon Redshift pendant l'`COPY`opération. Pour plus d'informations sur les paramètres, consultez [COPY](https://docs.aws.amazon.com/redshift/latest/dg/r_COPY.html) dans le manuel Amazon Redshift *Database Developer Guide*. Lorsqu'elle charge la table, la commande `COPY` tente implicitement de convertir les chaînes dans le type de données de la colonne cible. En plus des conversions de données par défaut qui s'exécutent de façon automatique, si vous rencontrez des erreurs ou si vous avez d'autres besoins de conversion, vous pouvez spécifier des paramètres de conversion supplémentaires. Pour plus d'informations, consultez la section [Paramètres de conversion des données](https://docs.aws.amazon.com/redshift/latest/dg/copy-parameters-data-conversion.html) dans le manuel Amazon Redshift *Database Developer Guide*. Si un format de données est associé au nœud de données d'entrée ou de sortie, les paramètres fournis sont ignorés.  Dans la mesure où l'opération de copie utilise d'abord `COPY` pour insérer des données dans une table intermédiaire, puis utilise une commande `INSERT` pour copier les données de la table intermédiaire dans la table de destination, certains paramètres de la commande `COPY` ne s'appliquent pas, comme la fonction de la commande `COPY` qui lui permet d'activer la compression automatique de la table. Si une compression est nécessaire, ajoutez les détails d'encodage de colonne à l'instruction `CREATE TABLE`.  De plus, dans certains cas, lorsqu'il doit décharger des données du cluster Amazon Redshift et créer des fichiers dans Amazon S3, il s'appuie sur `RedshiftCopyActivity` `UNLOAD` l'opération d'Amazon Redshift. Pour améliorer les performances pendant la copie et le déchargement, spécifiez le paramètre `PARALLEL OFF` à partir de la commande `UNLOAD`. Pour plus d'informations sur les paramètres, consultez [UNLOAD](https://docs.aws.amazon.com/redshift/latest/dg/r_UNLOAD.html) dans le manuel Amazon *Redshift Database* Developer Guide.  | String | 
| dependsOn | Spécifie une dépendance sur un autre objet exécutable. | Objet de référence : "dependsOn":\$1"ref":"myActivityId"\$1 | 
| failureAndRerunMode | Décrit le comportement du nœud de consommateurs lorsque les dépendances échouent ou sont à nouveau exécutées. | Énumération | 
| input | Nœud de données d'entrée. La source de données peut être Amazon S3, DynamoDB ou Amazon Redshift. | Objet de référence :  "input":\$1"ref":"myDataNodeId"\$1 | 
| lateAfterTimeout | Temps écoulé après le début du pipeline pendant lequel l'objet doit être terminé. Il est déclenché uniquement lorsque le type de planification n'est pas défini surondemand. | Period | 
| maxActiveInstances | Nombre maximal d'instances actives simultanées d'un composant. Les réexécutions ne sont pas comptabilisées dans le nombre d'instances actives. | Entier | 
| maximumRetries | Nombre maximal de nouvelles tentatives en cas d'échec | Entier | 
| onFail | Action à exécuter en cas d'échec de l'objet actuel. | Objet de référence : "onFail":\$1"ref":"myActionId"\$1 | 
| onLateAction | Actions à déclencher si un objet n'a pas encore été planifié ou n'est toujours pas terminé. | Objet de référence :  "onLateAction":\$1"ref":"myActionId"\$1 | 
| onSuccess | Action à exécuter en cas de réussite de l'objet actuel. | Objet de référence : "onSuccess":\$1"ref":"myActionId"\$1 | 
| output | Nœud de données de sortie. L'emplacement de sortie peut être Amazon S3 ou Amazon Redshift. | Objet de référence :  "output":\$1"ref":"myDataNodeId"\$1 | 
| parent | Parent de l'objet actuel à partir duquel les emplacements sont hérités. | Objet de référence : "parent":\$1"ref":"myBaseObjectId"\$1 | 
| pipelineLogUri | L'URI S3 (tel que 's3 ://BucketName/Key/ ') pour le téléchargement des journaux pour le pipeline. | String | 
| precondition | Définit une condition préalable facultative. Un nœud de données n'est pas marqué « READY » tant que toutes les conditions préalables ne sont pas remplies. | Objet de référence : "precondition":\$1"ref":"myPreconditionId"\$1 | 
| file d’attente |  Correspond au `query_group ` paramètre d'Amazon Redshift, qui vous permet d'attribuer et de prioriser les activités simultanées en fonction de leur placement dans les files d'attente.  Amazon Redshift limite le nombre de connexions simultanées à 15. Pour plus d'informations, consultez la section [Affectation de requêtes à des files d'attente](https://docs.aws.amazon.com/AmazonRDS/latest/DeveloperGuide/cm-c-executing-queries.html) dans le manuel Amazon RDS *Database* Developer Guide.  | String | 
| reportProgressTimeout |  Délai pour les appels successifs de travail à distance adressés à `reportProgress`.  Si une valeur est définie, les activités à distance qui ne font pas état d'avancement pour la période spécifiée doivent être considérées comme bloquées et, par conséquent, retentées.  | Period | 
| retryDelay | Délai entre deux nouvelles tentatives. | Period | 
| scheduleType |  Permet de spécifier si la planification s'applique aux objets de votre pipeline. Les valeurs sont : `cron`, `ondemand` et `timeseries` (cron, à la demande et séries chronologiques). La planification `timeseries` signifie que les instances sont programmées à la fin de chaque intervalle. La planification `Cron` signifie que les instances sont programmées au début de chaque intervalle.  Une planification `ondemand` vous permet d'exécuter un pipeline une fois par activation. Cela signifie que vous n'avez pas à cloner ou à recréer le pipeline pour l'exécuter à nouveau.  Pour utiliser des pipelines `ondemand`, vous devez appeler l'opération `ActivatePipeline` pour chaque exécution suivante.  Si vous utilisez une planification `ondemand`, vous devez la spécifier dans l'objet par défaut et faire en sorte qu'elle soit le seul `scheduleType` spécifié pour les objets du pipeline.  | Énumération | 
| transformSql |  Expression `SQL SELECT` utilisée pour transformer les données d'entrée.  Exécutez l'expression `transformSql` sur la table nommée `staging`.  Lorsque vous copiez des données depuis DynamoDB ou Amazon S3 AWS Data Pipeline , vous créez une table appelée « staging » et y chargez initialement les données. Les données de cette table sont utilisées pour mettre à jour la table cible.  Le schéma de sortie de `transformSql` doit correspondre au schéma de la table cible finale. Si vous spécifiez l'option `transformSql`, une seconde table intermédiaire est créée à partir de l'instruction SQL spécifiée. Les données de cette seconde table intermédiaire sont ensuite mises à jour dans la table cible finale.  | String | 

 


****  

| Champs liés à l'exécution | Description | Type d'option | 
| --- | --- | --- | 
| @activeInstances | Liste des objets d'instances actives actuellement planifiés. | Objet de référence : "activeInstances":\$1"ref":"myRunnableObjectId"\$1 | 
| @actualEndTime | Heure à laquelle l'exécution de l'objet s'est terminée. | DateTime | 
| @actualStartTime | Heure à laquelle l'exécution de l'objet a démarré. | DateTime | 
| cancellationReason | Motif de l'annulation si l'objet a été annulé. | String | 
| @cascadeFailedOn | Description de la chaîne de dépendances sur laquelle l'objet a échoué. | Objet de référence :  "cascadeFailedOn":\$1"ref":"myRunnableObjectId"\$1 | 
| emrStepLog | Journaux d'étapes EMR disponibles uniquement sur les tentatives d'activité EMR | String | 
| errorId | ID de l'erreur si l'objet a échoué. | String | 
| errorMessage | errorMessage si l'objet a échoué. | String | 
| errorStackTrace | Suivi de la pile d'erreurs si l'objet a échoué. | String | 
| @finishedTime | Heure à laquelle l'objet a terminé son exécution. | DateTime | 
| hadoopJobLog | Journaux de travail Hadoop disponibles sur les tentatives pour les activités EMR. | String | 
| @healthStatus | État de santé de l'objet qui reflète la réussite ou l'échec de la dernière instance qui a atteint un état résilié. | String | 
| @healthStatusFromInstanceId | ID du dernier objet d'instance qui atteint un état résilié. | String | 
| @ healthStatusUpdated Heure | Heure à laquelle l'état de santé a été mis à jour pour la dernière fois. | DateTime | 
| hostname | Nom d'hôte du client qui a sélectionné la tentative de tâche. | String | 
| @lastDeactivatedTime | Heure à laquelle l'objet a été désactivé pour la dernière fois. | DateTime | 
| @ latestCompletedRun Heure | Heure de la dernière exécution pour laquelle l'exécution s'est terminée. | DateTime | 
| @latestRunTime | Heure de la dernière exécution pour laquelle l'exécution a été planifiée. | DateTime | 
| @nextRunTime | Prochaine heure d'exécution planifiée. | DateTime | 
| reportProgressTime | Heure la plus récente pour laquelle l'activité distante a signalé une progression. | DateTime | 
| @scheduledEndTime | Heure de fin planifiée pour l'objet. | DateTime | 
| @scheduledStartTime | Heure de début planifiée pour l'objet. | DateTime | 
| @État | État de l'objet. | String | 
| @Version | Version du pipeline avec laquelle l'objet été créé. | String | 
| @waitingOn | Description de la liste des dépendances sur laquelle l'objet est en attente. | Objet de référence :  "waitingOn":\$1"ref":"myRunnableObjectId"\$1 | 

 


****  

| Champs système | Description | Type d'option | 
| --- | --- | --- | 
| @error | Erreur décrivant l'objet mal formé. | String | 
| @pipelineId | Id du pipeline auquel l'objet appartient. | String | 
| @sphere | Sphère d'un objet. Indique sa situation dans le cycle de vie. Par exemple, les objets de composant produisent des objets d'instance qui exécutent des objets « tentatives ». | String | 

# ShellCommandActivity
<a name="dp-object-shellcommandactivity"></a>

 Exécute une commande ou un script. Vous pouvez utiliser `ShellCommandActivity` pour exécuter les tâches planifiées de type séries chronologiques ou de type cron. 

Lorsque le `stage` champ est défini sur true et utilisé avec un`S3DataNode`, `ShellCommandActivity` prend en charge le concept de données intermédiaires, ce qui signifie que vous pouvez déplacer des données d'Amazon S3 vers un emplacement d'étape, tel qu'Amazon EC2 ou votre environnement local, travailler sur les données à l'aide de scripts et les `ShellCommandActivity` replacer vers Amazon S3. 

Dans ce cas, lorsque votre commande shell est connectée à un `S3DataNode` en entrée, vos scripts shell opèrent directement sur les données avec `${INPUT1_STAGING_DIR}`, `${INPUT2_STAGING_DIR}` et d'autres champs, en faisant référence aux champs `ShellCommandActivity` en entrée. 

De même, le résultat de la commande shell peut être transféré dans un répertoire de sortie pour être automatiquement transféré vers Amazon S3, référencé par `${OUTPUT1_STAGING_DIR}``${OUTPUT2_STAGING_DIR}`, etc. 

Ces expressions peuvent être transmises comme arguments de ligne de commande à la commande shell pour que vous les utilisiez dans la logique de transformation des données.

`ShellCommandActivity` renvoie les chaînes et codes d'erreur Linux. Si une activité `ShellCommandActivity` se traduit par une erreur, la valeur `error` retournée est différente de zéro.

## Exemple
<a name="shellcommandactivity-example"></a>

Voici un exemple de ce type d'objet.

```
{
  "id" : "CreateDirectory",
  "type" : "ShellCommandActivity",
  "command" : "mkdir new-directory"
}
```

## Syntaxe
<a name="shellcommandactivity-syntax"></a>


****  

| Champs d'invocation de l'objet | Description | Type d'option | 
| --- | --- | --- | 
| schedule |  Cet objet est appelé dans le cadre de l'exécution d'un intervalle `schedule`. Pour définir l'ordre d'exécution des dépendances de cet objet, spécifiez une référence `schedule` à un autre objet.  Pour satisfaire cette exigence, définissez explicitement un `schedule` sur l'objet, par exemple, en spécifiant `"schedule": {"ref": "DefaultSchedule"}`.  Dans la plupart des cas, il est préférable de placer la référence `schedule` sur l'objet de pipeline par défaut de manière à ce que tous les objets héritent cette planification. Si le pipeline se compose d'une arborescence de planifications (planifications au sein de la planification maître), créez un objet parent ayant une référence de planification.  Pour répartir la charge, AWS Data Pipeline créez des objets physiques légèrement plus tôt que prévu, mais exécutez-les dans les délais prévus.  Pour plus d'informations sur les exemples de configurations de planification facultatives, consultez [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html).  | Objet de référence, par exemple « schedule » : \$1"ref » : » myScheduleId «\$1 | 

 


****  

| Groupe obligatoire (l'un des groupes suivants est obligatoire) | Description | Type d'option | 
| --- | --- | --- | 
| command | Commande à exécuter. Utilisez la valeur \$1 pour référencer les paramètres de positionnement et scriptArgument pour spécifier les paramètres de la commande. Cette valeur et les paramètres associés doivent fonctionner dans l'environnement à partir duquel vous lancez l'exécuteur de tâches. | String | 
| scriptUri | Chemin d'accès par URI Amazon S3 d'un fichier à télécharger et à exécuter en tant que commande shell. Spécifiez un seul scriptUri, ou champ command. Étant donné que le champ scriptUri ne peut pas utiliser de paramètres, utilisez plutôt command. | String | 

 


****  

| Groupe obligatoire (l'un des groupes suivants est obligatoire) | Description | Type d'option | 
| --- | --- | --- | 
| runsOn | La ressource de calcul permettant d'exécuter l'activité ou la commande, par exemple, une instance Amazon EC2 ou un cluster Amazon EMR. | Objet de référence, par exemple « RunSon » : \$1"ref » : » myResourceId «\$1 | 
| workerGroup | Utilisé pour les tâches d'acheminement. Si vous fournissez une valeur runsOn et que workerGroup existe, workerGroup est ignoré. | String | 

 


****  

| Champs facultatifs | Description | Type d'option | 
| --- | --- | --- | 
| attemptStatus | État de l'activité à distance le plus récemment rapporté. | String | 
| attemptTimeout | Délai d'achèvement de la tâche à distance. Si une valeur est définie, une activité à distance qui n'est pas exécutée dans la période de départ définie peut être retentée. | Period | 
| dependsOn | Spécifie une dépendance sur un autre objet exécutable. | Objet de référence, par exemple « DependsOn » : \$1"ref » : » myActivityId «\$1 | 
| failureAndRerunMode | Décrit le comportement du nœud de consommateurs lorsque les dépendances échouent ou sont à nouveau exécutées. | Énumération | 
| input | Emplacement des données d'entrée. | Objet de référence, par exemple « input » : \$1"ref » : » myDataNode Id "\$1 | 
| lateAfterTimeout | Temps écoulé après le début du pipeline pendant lequel l'objet doit être terminé. Il est déclenché uniquement lorsque le type de planification n'est pas défini surondemand. | Period | 
| maxActiveInstances | Nombre maximal d'instances actives simultanées d'un composant. Les réexécutions ne sont pas comptabilisées dans le nombre d'instances actives. | Entier | 
| maximumRetries | Nombre maximal de nouvelles tentatives en cas d'échec. | Entier | 
| onFail | Action à exécuter en cas d'échec de l'objet actuel. | Objet de référence, par exemple « onFail » : \$1"ref » : » myActionId «\$1 | 
| onLateAction | Actions à déclencher si un objet n'a pas encore été planifié ou n'est pas terminé. | Objet de référence, par exemple "onLateAction« : \$1" ref » : » myActionId «\$1 | 
| onSuccess | Action à exécuter en cas de réussite de l'objet actuel. | Objet de référence, par exemple « onSuccess » : \$1"ref » : » myActionId «\$1 | 
| output | Emplacement des données de sortie. | Objet de référence, par exemple « output » : \$1"ref » : » myDataNode Id "\$1 | 
| parent | Parent de l'objet actuel à partir duquel les emplacements sont hérités. | Objet de référence, par exemple « parent » : \$1"ref » : » myBaseObject Id "\$1 | 
| pipelineLogUri | L'URI Amazon S3, par exemple 's3://BucketName/Key/' pour le téléchargement des journaux pour le pipeline. | String | 
| precondition | Définit une condition préalable facultative. Un nœud de données n'est pas marqué « READY » tant que toutes les conditions préalables ne sont pas remplies. | Objet de référence, par exemple « précondition » : \$1"ref » : » myPreconditionId «\$1 | 
| reportProgressTimeout | Délai pour les appels successifs adressés à reportProgress par les activités à distance. Si une valeur est définie, les activités à distance qui ne font pas état d'avancement pour la période spécifiée doivent être considérées comme bloquées et font l'objet d'une nouvelle tentative. | Period | 
| retryDelay | Délai entre deux nouvelles tentatives. | Period | 
| scheduleType |  Permet de spécifier si les objets de votre définition de pipeline doivent être planifiés au début ou à la fin de l'intervalle.  Les valeurs sont : `cron`, `ondemand` et `timeseries`. Si la planification est définie sur `timeseries`, les instances sont programmées à la fin de chaque intervalle.  Si la planification est définie sur `Cron`, les instances sont programmées au début de chaque intervalle.  Si la planification est définie sur `ondemand`, vous pouvez exécuter un pipeline une fois, par activation. Cela signifie que vous n'avez pas à cloner ou à recréer le pipeline pour l'exécuter à nouveau. Si vous utilisez une planification `ondemand`, spécifiez-la dans l'objet par défaut comme seul `scheduleType` pour les objets du pipeline. Pour utiliser des pipelines `ondemand`, vous devez appeler l'opération `ActivatePipeline` pour chaque exécution suivante.   | Énumération | 
| scriptArgument | Tableau de chaînes au format JSON à transmettre à la commande spécifiée par le champ command. Par exemple, si la valeur du champ command est echo \$11 \$12, spécifiez scriptArgument en tant que "param1", "param2". En cas d'arguments et de paramètres multiples, transmettez le scriptArgument comme suit :  "scriptArgument":"arg1","scriptArgument":"param1","scriptArgument":"arg2","scriptArgument":"param2". Le scriptArgument ne peut être utilisé qu'avec command ; son utilisation avec scriptUri provoque une erreur. | String | 
| étape | Détermine si la gestion intermédiaire est activée et permet à vos commandes shell d'avoir accès aux variables de données mises en lots, telles que \$1\$1INPUT1\$1STAGING\$1DIR\$1 et  \$1\$1OUTPUT1\$1STAGING\$1DIR\$1. | Booléen | 
| stderr | Chemin qui reçoit les messages d'erreur système redirigés à partir de la commande. Si vous utilisez ce runsOn champ, il doit s'agir d'un chemin Amazon S3 en raison de la nature transitoire de la ressource exécutant votre activité. Toutefois, si vous spécifiez le champ workerGroup, un chemin de fichier local est autorisé. | String | 
| stdout | Le chemin Amazon S3 qui reçoit la sortie redirigée de la commande. Si vous utilisez ce runsOn champ, il doit s'agir d'un chemin Amazon S3 en raison de la nature transitoire de la ressource exécutant votre activité. Toutefois, si vous spécifiez le champ workerGroup, un chemin de fichier local est autorisé. | String | 

 


****  

| Champs liés à l'exécution | Description | Type d'option | 
| --- | --- | --- | 
| @activeInstances | Liste des objets d'instances actives actuellement planifiés. | Objet de référence, par exemple « ActiveInstances » : \$1"ref » : » myRunnableObject Id "\$1 | 
| @actualEndTime | Heure à laquelle l'exécution de l'objet s'est terminée. | DateTime | 
| @actualStartTime | Heure à laquelle l'exécution de l'objet a démarré. | DateTime | 
| cancellationReason | cancellationReason si l'objet a été annulé. | String | 
| @cascadeFailedOn | Description de la chaîne de dépendances à l'origine de l'échec de l'objet. | Objet de référence, par exemple "cascadeFailedOn« : \$1" ref » : » myRunnableObject Id "\$1 | 
| emrStepLog | Les journaux d'étapes Amazon EMR sont disponibles uniquement pour les tentatives d'activité Amazon EMR. | String | 
| errorId | errorId si l'objet a échoué. | String | 
| errorMessage | errorMessage si l'objet a échoué. | String | 
| errorStackTrace | Suivi de la pile d'erreurs si l'objet a échoué. | String | 
| @finishedTime | Heure à laquelle l'objet a terminé son exécution. | DateTime | 
| hadoopJobLog | Des journaux de tâches Hadoop sont disponibles en cas de tentative d'activités basées sur Amazon EMR. | String | 
| @healthStatus | État de santé de l'objet qui reflète la réussite ou l'échec de la dernière instance qui a atteint un état résilié. | String | 
| @healthStatusFromInstanceId | ID du dernier objet d'instance qui atteint un état résilié. | String | 
| @ healthStatusUpdated Heure | Heure à laquelle l'état de santé a été mis à jour pour la dernière fois. | DateTime | 
| hostname | Nom d'hôte du client qui a sélectionné la tentative de tâche. | String | 
| @lastDeactivatedTime | Heure à laquelle l'objet a été désactivé pour la dernière fois. | DateTime | 
| @ latestCompletedRun Heure | Heure de la dernière exécution pour laquelle l'exécution s'est terminée. | DateTime | 
| @latestRunTime | Heure de la dernière exécution pour laquelle l'exécution a été planifiée. | DateTime | 
| @nextRunTime | Prochaine heure d'exécution planifiée. | DateTime | 
| reportProgressTime | Heure la plus récente pour laquelle l'activité distante a signalé une progression. | DateTime | 
| @scheduledEndTime | Heure de fin planifiée pour l'objet. | DateTime | 
| @scheduledStartTime | Heure de début planifiée pour l'objet. | DateTime | 
| @État | Statut de l'objet. | String | 
| @Version |  AWS Data Pipeline Version utilisée pour créer l'objet. | String | 
| @waitingOn | Description de la liste des dépendances sur laquelle l'objet est en attente. | Objet de référence, par exemple « WaitingOn » : \$1"ref » : » myRunnableObject Id "\$1 | 

 


****  

| Champs système | Description | Type d'option | 
| --- | --- | --- | 
| @error | Erreur décrivant l'objet mal formé. | String | 
| @pipelineId | ID du pipeline auquel l'objet appartient. | String | 
| @sphere | Emplacement d'un objet dans le cycle de vie. Les objets de composant entraînent des objets d'instance, qui exécutent des objets « tentatives ». | String | 

## Voir aussi
<a name="shellcommandactivity-seealso"></a>
+ [CopyActivity](dp-object-copyactivity.md)
+ [EmrActivity](dp-object-emractivity.md)

# SqlActivity
<a name="dp-object-sqlactivity"></a>

Exécute une requête SQL (script) sur une base de données.

## Exemple
<a name="sqlactivity-example"></a>

Voici un exemple de ce type d'objet.

```
{
  "id" : "MySqlActivity",
  "type" : "SqlActivity",
  "database" : { "ref": "MyDatabaseID" },
  "script" : "SQLQuery" | "scriptUri" : s3://scriptBucket/query.sql,
  "schedule" : { "ref": "MyScheduleID" },
}
```

## Syntaxe
<a name="sqlactivity-syntax"></a>


****  

| Champs obligatoires | Description | Type d'option | 
| --- | --- | --- | 
| database | Base de données sur laquelle exécuter le script SQL fourni. | Objet de référence, par exemple « base de données » : \$1"ref » : » myDatabaseId «\$1 | 

 


****  

| Champs d'invocation de l'objet | Description | Type d'option | 
| --- | --- | --- | 
| schedule |  Cet objet est appelé dans le cadre de l'exécution d'un intervalle de planification. Vous devez spécifier une référence de planification à un autre objet pour définir l'ordre d'exécution des dépendances de l'objet. Vous pouvez définir explicitement une planification sur l'objet, par exemple, en spécifiant `"schedule": {"ref": "DefaultSchedule"}`.  Dans la plupart des cas, il est préférable de placer la planification de référence sur l'objet de pipeline par défaut de manière à ce que tous les objets héritent cette planification.  Si le pipeline dispose d'une arborescence de planifications imbriquées dans la planification maître, créez un objet parent ayant une référence de planification. Pour plus d'informations sur les exemples de configurations de planification facultatives, consultez [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html).  | Objet de référence, par exemple « schedule » : \$1"ref » : » myScheduleId «\$1 | 

 


****  

| Groupe obligatoire (l'un des groupes suivants est obligatoire) | Description | Type d'option | 
| --- | --- | --- | 
| script | Script SQL à exécuter. Vous devez spécifier script ou scriptUri. Lorsque le script est stocké dans Amazon S3, le script n'est pas évalué en tant qu'expression. Spécifier plusieurs valeurs pour scriptArgument est utile lorsque le script est stocké dans Amazon S3. | String | 
| scriptUri | URI spécifiant l'emplacement d'un script SQL à exécuter dans l'activité. | String | 

 


****  

| Groupe obligatoire (l'un des groupes suivants est obligatoire) | Description | Type d'option | 
| --- | --- | --- | 
| runsOn | Ressource de calcul pour exécuter l'activité ou la commande. Par exemple, une instance Amazon EC2 ou un cluster Amazon EMR. | Objet de référence, par exemple « RunSon » : \$1"ref » : » myResourceId «\$1 | 
| workerGroup | Groupe de travail. Utilisé pour les tâches d'acheminement. Si vous fournissez une valeur runsOn et que workerGroup existe, workerGroup est ignoré. | String | 

 


****  

| Champs facultatifs | Description | Type d'option | 
| --- | --- | --- | 
| attemptStatus | État de l'activité à distance le plus récemment rapporté. | String | 
| attemptTimeout | Délai d'achèvement de la tâche à distance. Si une valeur est définie, une activité à distance qui n'est pas exécutée dans le cadre de la période de départ définie peut être retentée. | Period | 
| dependsOn | Spécifie une dépendance sur un autre objet exécutable. | Objet de référence, par exemple « DependsOn » : \$1"ref » : » myActivityId «\$1 | 
| failureAndRerunMode | Décrit le comportement du nœud de consommateurs lorsque les dépendances échouent ou sont à nouveau exécutées. | Énumération | 
| input | Emplacement des données d'entrée. | Objet de référence, par exemple « input » : \$1"ref » : » myDataNode Id "\$1 | 
| lateAfterTimeout | Période depuis le début planifié du pipeline au sein de laquelle l'objet exécuté doit démarrer. | Period | 
| maxActiveInstances | Nombre maximal d'instances actives simultanées d'un composant. Les réexécutions ne sont pas comptabilisées dans le nombre d'instances actives. | Entier | 
| maximumRetries | Nombre maximal de nouvelles tentatives en cas d'échec | Entier | 
| onFail | Action à exécuter en cas d'échec de l'objet actuel. | Objet de référence, par exemple « onFail » : \$1"ref » : » myActionId «\$1 | 
| onLateAction | Actions qui doivent être déclenchées si un objet n'a pas encore été planifié ou n'est toujours pas terminé au cours de la période écoulée depuis le début prévu du pipeline, comme spécifié par « lateAfterTimeout ». | Objet de référence, par exemple "onLateAction« : \$1" ref » : » myActionId «\$1 | 
| onSuccess | Action à exécuter en cas de réussite de l'objet actuel. | Objet de référence, par exemple « onSuccess » : \$1"ref » : » myActionId «\$1 | 
| output | Emplacement des données de sortie. Cela n'est utile que pour le référencement depuis un script (par exemple\$1\$1output.tablename\$1) et pour créer la table de sortie en définissant « createTableSql » dans le nœud de données de sortie. La sortie de la requête SQL n'est pas écrite dans le nœud des données de sortie. | Objet de référence, par exemple « output » : \$1"ref » : » myDataNode Id "\$1 | 
| parent | Parent de l'objet actuel à partir duquel les emplacements sont hérités. | Objet de référence, par exemple « parent » : \$1"ref » : » myBaseObject Id "\$1 | 
| pipelineLogUri | L'URI S3 (tel que 's3 ://BucketName/Key/ ') pour le téléchargement des journaux pour le pipeline. | String | 
| precondition | Définit une condition préalable facultative. Un nœud de données n'est pas marqué « READY » tant que toutes les conditions préalables ne sont pas remplies. | Objet de référence, par exemple « précondition » : \$1"ref » : » myPreconditionId «\$1 | 
| file d’attente | [Amazon Redshift uniquement] Correspond au paramètre query\$1group d'Amazon Redshift, qui vous permet d'attribuer et de hiérarchiser les activités simultanées en fonction de leur placement dans les files d'attente. Amazon Redshift limite le nombre de connexions simultanées à 15. Pour plus d'informations, consultez [Attribution de requêtes aux files d'attente](https://docs.aws.amazon.com/redshift/latest/dg/cm-c-executing-queries.html) dans le manuel Amazon Redshift Developer Guide. | String | 
| reportProgressTimeout | Délai pour les appels successifs de travail à distance adressés à reportProgress. Si une valeur est définie, les activités à distance qui ne font pas état d'avancement pour la période spécifiée doivent être considérées comme bloquées et, par conséquent, retentées. | Period | 
| retryDelay | Délai entre deux nouvelles tentatives. | Period | 
| scheduleType |  Le type de planification vous permet de spécifier si les objets de votre définition de pipeline doivent être planifiés au début ou à la fin de l'intervalle. Les valeurs sont : `cron`, `ondemand` et `timeseries` (cron, à la demande et séries chronologiques).  Une planification `timeseries` signifie que les instances sont programmées à la fin de chaque intervalle. Une planification `cron` signifie que les instances sont programmées au début de chaque intervalle.  Une planification `ondemand` vous permet d'exécuter un pipeline une fois par activation. Cela signifie que vous n'avez pas à cloner ou à recréer le pipeline pour l'exécuter à nouveau. Si vous utilisez une planification `ondemand`, elle doit être spécifiée dans l'objet par défaut et être le seul `scheduleType` spécifié pour les objets du pipeline. Pour utiliser des pipelines `ondemand`, vous devez appeler l'opération `ActivatePipeline` pour chaque exécution suivante.  | Énumération | 
| scriptArgument | Liste de variables pour le script. Vous pouvez également placer directement des expressions dans le champ script. Spécifier plusieurs valeurs pour scriptArgument est utile lorsque le script est stocké dans Amazon S3. Exemple : \$1 \$1format (@scheduledStartTime, "YY-MM-DD HH:MM:SS"\$1\$1n\$1 \$1format (PlusPeriod (@scheduledStartTime, « 1 jour »), « HH:MM:SS"\$1 YY-MM-DD  | String | 

 


****  

| Champs liés à l'exécution | Description | Type d'option | 
| --- | --- | --- | 
| @activeInstances | Liste des objets d'instances actives actuellement planifiés. | Objet de référence, par exemple « ActiveInstances » : \$1"ref » : » myRunnableObject Id "\$1 | 
| @actualEndTime | Heure à laquelle l'exécution de l'objet s'est terminée. | DateTime | 
| @actualStartTime | Heure à laquelle l'exécution de l'objet a démarré. | DateTime | 
| cancellationReason | Motif de l'annulation si l'objet a été annulé. | String | 
| @cascadeFailedOn | Description de la chaîne de dépendances sur laquelle l'objet a échoué. | Objet de référence, par exemple "cascadeFailedOn« : \$1" ref » : » myRunnableObject Id "\$1 | 
| emrStepLog | Journaux d'étapes EMR disponibles uniquement sur les tentatives d'activité EMR | String | 
| errorId | ID de l'erreur si l'objet a échoué. | String | 
| errorMessage | errorMessage si l'objet a échoué. | String | 
| errorStackTrace | Suivi de la pile d'erreurs si l'objet a échoué. | String | 
| @finishedTime | Heure à laquelle l'objet a terminé son exécution. | DateTime | 
| hadoopJobLog | Journaux de travail Hadoop disponibles sur les tentatives pour les activités EMR. | String | 
| @healthStatus | État de santé de l'objet qui reflète la réussite ou l'échec de la dernière instance qui a atteint un état résilié. | String | 
| @healthStatusFromInstanceId | ID du dernier objet d'instance qui atteint un état résilié. | String | 
| @ healthStatusUpdated Heure | Heure à laquelle l'état de santé a été mis à jour pour la dernière fois. | DateTime | 
| hostname | Nom d'hôte du client qui a sélectionné la tentative de tâche. | String | 
| @lastDeactivatedTime | Heure à laquelle l'objet a été désactivé pour la dernière fois. | DateTime | 
| @ latestCompletedRun Heure | Heure de la dernière exécution pour laquelle l'exécution s'est terminée. | DateTime | 
| @latestRunTime | Heure de la dernière exécution pour laquelle l'exécution a été planifiée. | DateTime | 
| @nextRunTime | Prochaine heure d'exécution planifiée. | DateTime | 
| reportProgressTime | Heure la plus récente pour laquelle l'activité distante a signalé une progression. | DateTime | 
| @scheduledEndTime | Heure de fin planifiée pour l'objet. | DateTime | 
| @scheduledStartTime | Heure de début planifiée pour l'objet. | DateTime | 
| @État | État de l'objet. | String | 
| @Version | Version du pipeline avec laquelle l'objet été créé. | String | 
| @waitingOn | Description de la liste des dépendances sur laquelle l'objet est en attente. | Objet de référence, par exemple « WaitingOn » : \$1"ref » : » myRunnableObject Id "\$1 | 

 


****  

| Champs système | Description | Type d'option | 
| --- | --- | --- | 
| @error | Erreur décrivant l'objet mal formé. | String | 
| @pipelineId | Id du pipeline auquel l'objet appartient. | String | 
| @sphere | La sphère d'un objet désigne sa place dans le cycle de vie : les objets « composant » entraînent les objets « instance » qui exécutent les objets « tentative ». | String | 