

AWS Data Pipeline não está mais disponível para novos clientes. Os clientes existentes do AWS Data Pipeline podem continuar usando o serviço normalmente. [Saiba mais](https://aws.amazon.com/blogs/big-data/migrate-workloads-from-aws-data-pipeline/)

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Atividades
<a name="dp-object-activities"></a>

A seguir estão os objetos da AWS Data Pipeline atividade:

**Topics**
+ [CopyActivity](dp-object-copyactivity.md)
+ [EmrActivity](dp-object-emractivity.md)
+ [HadoopActivity](dp-object-hadoopactivity.md)
+ [HiveActivity](dp-object-hiveactivity.md)
+ [HiveCopyActivity](dp-object-hivecopyactivity.md)
+ [PigActivity](dp-object-pigactivity.md)
+ [RedshiftCopyActivity](dp-object-redshiftcopyactivity.md)
+ [ShellCommandActivity](dp-object-shellcommandactivity.md)
+ [SqlActivity](dp-object-sqlactivity.md)

# CopyActivity
<a name="dp-object-copyactivity"></a>

Copia dados de um local para outro. `CopyActivity`suporta [S3 DataNode](dp-object-s3datanode.md) e [SqlDataNode](dp-object-sqldatanode.md) como entrada e saída e a operação de cópia é normalmente executada record-by-record. No entanto, `CopyActivity` fornece cópia do Amazon S3 para Amazon S3 de alto desempenho quando todas as condições a seguir são atendidas:
+ A entrada e a saída são S3 DataNodes
+ O campo `dataFormat` é igual para a entrada e a saída

Se você fornecer arquivos de dados compactados como entrada e não indicar isso usando o campo `compression` nos nós de dados do S3, `CopyActivity` poderá falhar. Nesse caso, `CopyActivity` não detecta corretamente o fim do caractere de gravação e ocorre falha na operação. Além disso, `CopyActivity` oferece suporte à cópia de um diretório para outro diretório e à cópia de um arquivo em um diretório, mas a record-by-record cópia ocorre ao copiar um diretório para um arquivo. Por fim, `CopyActivity` não oferece suporte à copia de arquivos do Amazon S3 de várias partes. 

`CopyActivity` tem limitações específicas para suporte a CSV. Ao usar um S3 DataNode como entrada para`CopyActivity`, você só pode usar uma Unix/Linux variante do formato de arquivo de dados CSV para os campos de entrada e saída do Amazon S3. A Unix/Linux variante requer o seguinte: 
+ O separador precisa ser o caractere "," (vírgula).
+ Os registros não ficam entre aspas.
+ O caractere de escape padrão é o valor ASCII 92 (barra invertida).
+ O identificador de fim de registro é o valor ASCII 10 (ou "\$1n").

Os sistemas baseados em Windows normalmente usam uma sequência de end-of-record caracteres diferente: um retorno de carro e alimentação de linha juntos (valor ASCII 13 e valor ASCII 10). Você precisa acomodar essa diferença usando um mecanismo adicional, como um script de pré-cópia para modificação de dados de entrada, para garantir que `CopyActivity` possa detectar corretamente o final de um registro. Caso contrário, `CopyActivity` apresentará falhas repetidamente.

Ao usar `CopyActivity` para fazer exportações a partir de um objeto PostgreSQL do RDS para um formato de dados TSV, o caractere NULL padrão é \$1n.

## Exemplo
<a name="copyactivity-example"></a>

Veja a seguir um exemplo deste tipo de objeto. Esse objeto faz referência a três outros objetos definidos por você no mesmo arquivo de definição de pipeline. `CopyPeriod` é um objeto `Schedule` e `InputData` e `OutputData` são objetos de nó de dados.

```
{
  "id" : "S3ToS3Copy",
  "type" : "CopyActivity",
  "schedule" : { "ref" : "CopyPeriod" },
  "input" : { "ref" : "InputData" },
  "output" : { "ref" : "OutputData" },
  "runsOn" : { "ref" : "MyEc2Resource" }
}
```

## Sintaxe
<a name="copyactivity-syntax"></a>


****  

| Campos de invocação de objetos | Description | Tipo de slot | 
| --- | --- | --- | 
| agendamento | Esse objeto é invocado durante a execução de um intervalo de programação. Os usuários precisam especificar uma referência de programação para outro objeto de modo a definir a ordem de execução de dependência desse objeto. Os usuários podem satisfazer esse requisito definindo explicitamente uma programação no objeto, por exemplo, especificando “agenda”: \$1"ref”: "DefaultSchedule“\$1. Na maioria dos casos, é melhor colocar a referência de programação no objeto de pipeline padrão para que todos os objetos herdem essa programação. Como alternativa, se o pipeline tiver uma árvore de programações (outras programações dentro de uma programação principal), os usuários poderão criar um objeto principal que tenha uma referência de programação. Para obter mais informações sobre o exemplo de configurações opcionais de programação, consulte [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html). | Objeto de referência, por exemplo, “agenda”: \$1"ref”:” myScheduleId “\$1 | 


****  

| Grupo obrigatório (um dos seguintes é obrigatório) | Description | Tipo de slot | 
| --- | --- | --- | 
| runsOn | O recurso computacional para executar a atividade ou o comando. Por exemplo, uma instância do Amazon EC2 ou um cluster do Amazon EMR. | Objeto de referência, por exemplo, “runsOn”: \$1"ref”:” myResourceId “\$1 | 
| workerGroup | O grupo de operadores. Isso é usado para tarefas de roteamento. Se você fornecer um valor de runsOn e workerGroup existir, workerGroup será ignorado. | String | 

 


****  

| Campos opcionais | Description | Tipo de slot | 
| --- | --- | --- | 
| attemptStatus | Status mais recente da atividade remota. | String | 
| attemptTimeout | Tempo limite para conclusão do trabalho remoto. Se configurada, uma atividade remota não concluída dentro do prazo definido poderá ser executada novamente. | Período | 
| dependsOn | Especifique a dependência em outro objeto executável. | Objeto de referência, por exemplo, “dependsOn”: \$1"ref”:” myActivityId “\$1 | 
| failureAndRerunModo | Descreve o comportamento do nó do consumidor quando as dependências apresentam falhas ou são executadas novamente. | Enumeração | 
| input | A fonte de dados de entrada. | Objeto de referência, por exemplo, “input”: \$1"ref”:” myDataNode Id "\$1 | 
| lateAfterTimeout | O tempo decorrido após o início do pipeline no qual o objeto deve ser concluído. Ele é acionado somente quando o tipo de programação não está definido como ondemand. | Período | 
| maxActiveInstances | O número máximo de instâncias ativas simultâneas de um componente. Novas execuções não contam para o número de instâncias ativas. | Inteiro | 
| maximumRetries | Quantidade máxima de novas tentativas com falha. | Inteiro | 
| onFail | Uma ação a ser executada quando há falha no objeto atual. | Objeto de referência, por exemplo, “onFail”: \$1"ref”:” myActionId “\$1 | 
| onLateAction | Ações que devem ser acionadas se um objeto ainda não foi agendado ou não foi concluído. | Objeto de referência, por exemplo, "onLateAction“: \$1" ref”:” myActionId “\$1 | 
| onSuccess | Uma ação a ser executada quando o objeto atual é executado com êxito. | Objeto de referência, por exemplo, “onSuccess”: \$1"ref”:” myActionId “\$1 | 
| saída | A fonte de dados de saída. | Objeto de referência, por exemplo, “output”: \$1"ref”:” myDataNode Id "\$1 | 
| parent | Pai do objeto atual a partir do qual os slots serão herdados. | Objeto de referência, por exemplo, “parent”: \$1"ref”:” myBaseObject Id "\$1 | 
| pipelineLogUri | O URI do S3 (como 's3://BucketName/Key/ ') para carregar registros para o pipeline. | String | 
| precondition | Se desejar, você pode definir uma precondição. Um nó de dados não fica marcado como "READY" até que todas as precondições tenham sido atendidas. | Objeto de referência, por exemplo, “pré-condição”: \$1"ref”:” myPreconditionId “\$1 | 
| reportProgressTimeout | Tempo limite para as chamadas sucessivas de trabalho remoto para reportProgress. Se definidas, as atividades remotas sem progresso para o período especificado podem ser consideradas como interrompidas e executadas novamente. | Período | 
| retryDelay | A duração do tempo limite entre duas novas tentativas. | Período | 
| scheduleType | O tipo de programação permite que você especifique se os objetos na sua definição de pipeline devem ser programados no início ou no final do intervalo. Programação com estilo de séries temporais significa que as instâncias são programadas no final de cada intervalo, e Programação com estilo Cron significa que as instâncias são programadas no início de cada intervalo. Uma programação sob demanda permite que você execute um pipeline uma vez por ativação. Isso significa que você não precisa clonar nem recriar o pipeline para executá-lo novamente. Se você usar uma programação sob demanda, ela precisará ser especificada no objeto padrão, além de ser a única scheduleType especificada para objetos no pipeline. Para usar pipelines sob demanda, basta chamar a ActivatePipeline operação para cada execução subsequente. Os valores são: cron, ondemand e timeseries. | Enumeração | 

 


****  

| Campos de tempo de execução | Description | Tipo de slot | 
| --- | --- | --- | 
| @activeInstances | Lista dos objetos da instância ativa agendados no momento. | Objeto de referência, por exemplo, “ActiveInstances”: \$1"ref”:” myRunnableObject Id "\$1 | 
| @actualEndTime | Hora em que a execução deste objeto foi concluída. | DateTime | 
| @actualStartTime | Hora em que a execução deste objeto foi iniciada. | DateTime | 
| cancellationReason | O motivo do cancelamento, se esse objeto foi cancelado. | String | 
| @cascadeFailedOn | Descrição da cadeia de dependência na qual o objeto apresentou falha. | Objeto de referência, por exemplo, "cascadeFailedOn“: \$1" ref”:” myRunnableObject Id "\$1 | 
| emrStepLog | Registros da etapa do EMR disponíveis somente nas tentativas de atividade do EMR. | String | 
| errorId | O ID do erro se esse objeto apresentou falha. | String | 
| errorMessage | A mensagem de erro se esse objeto apresentou falha. | String | 
| errorStackTrace | O rastreamento de pilha com erro se esse objeto apresentou falha. | String | 
| @finishedTime | A hora em que esse objeto terminou a execução. | DateTime | 
| hadoopJobLog | Registos de trabalho do Hadoop disponíveis nas tentativas de atividades baseadas em EMR. | String | 
| @healthStatus | O status de integridade do objeto que indica se houve sucesso ou falha na última instância concluída do objeto. | String | 
| @healthStatusFromInstanceId | ID do último objeto da instância concluído. | String | 
| @ healthStatusUpdated Hora | Hora em que o status de integridade foi atualizado pela última vez. | DateTime | 
| hostname | O nome do host do cliente que capturou a tentativa da tarefa. | String | 
| @lastDeactivatedTime | A hora em que esse objeto foi desativado pela última vez. | DateTime | 
| @ latestCompletedRun Hora | Hora da última execução concluída. | DateTime | 
| @latestRunTime | Hora da última execução programada. | DateTime | 
| @nextRunTime | Hora da próxima execução a ser programada. | DateTime | 
| reportProgressTime | A última vez que a atividade remota relatou progresso. | DateTime | 
| @scheduledEndTime | Horário de término da programação para o objeto. | DateTime | 
| @scheduledStartTime | Horário de início da programação para o objeto. | DateTime | 
| @status | O status deste objeto. | String | 
| @version | A versão do pipeline com que o objeto foi criado. | String | 
| @waitingOn | Descrição da lista de dependências em que este objeto está aguardando. | Objeto de referência, por exemplo, “waitingOn”: \$1"ref”:” myRunnableObject Id "\$1 | 

 


****  

| Campos do sistema | Description | Tipo de slot | 
| --- | --- | --- | 
| @error | Erro ao descrever o objeto malformado. | String | 
| @pipelineId | ID do pipeline ao qual este objeto pertence. | String | 
| @sphere | A esfera de um objeto denota seu lugar no ciclo de vida: os objetos componentes dão origem aos objetos de instância que executam os objetos de tentativa. | String | 

## Consulte também
<a name="copyactivity-seealso"></a>
+ [ShellCommandActivity](dp-object-shellcommandactivity.md)
+ [EmrActivity](dp-object-emractivity.md)
+ [Exporte dados do MySQL para o Amazon S3 usando AWS Data Pipeline](dp-copydata-mysql.md)

# EmrActivity
<a name="dp-object-emractivity"></a>

 Executa um cluster do EMR. 

AWS Data Pipeline usa um formato diferente para etapas do Amazon EMR; por exemplo, AWS Data Pipeline usa argumentos separados por vírgula após o nome JAR no campo da etapa. `EmrActivity` O exemplo a seguir mostra uma etapa formatada para o Amazon EMR, seguida por uma etapa equivalente para o AWS Data Pipeline :

```
s3://amzn-s3-demo-bucket/MyWork.jar arg1 arg2 arg3
```

```
"s3://amzn-s3-demo-bucket/MyWork.jar,arg1,arg2,arg3"
```

## Exemplos
<a name="emractivity-example"></a>

Veja a seguir um exemplo deste tipo de objeto. Este exemplo usa versões mais antigas do Amazon EMR. Verifique este exemplo para se alinhar com a versão do cluster do Amazon EMR que você está usando. 

Esse objeto faz referência a três outros objetos definidos por você no mesmo arquivo de definição de pipeline. `MyEmrCluster` é um objeto `EmrCluster` e `MyS3Input` e `MyS3Output` são objetos `S3DataNode`. 

**nota**  
Neste exemplo, você pode substituir o campo `step` pela string de cluster que quiser. Ela pode ser um script do Pig, um cluster de streaming Hadoop, seu próprio JAR personalizado (incluindo seus respectivos parâmetros) e assim por diante.

Hadoop 2.x (AMI 3.x)

```
{
  "id" : "MyEmrActivity",
  "type" : "EmrActivity",
  "runsOn" : { "ref" : "MyEmrCluster" },
  "preStepCommand" : "scp remoteFiles localFiles",
  "step" : ["s3://amzn-s3-demo-bucket/myPath/myStep.jar,firstArg,secondArg,-files,s3://amzn-s3-demo-bucket/myPath/myFile.py,-input,s3://myinputbucket/path,-output,s3://myoutputbucket/path,-mapper,myFile.py,-reducer,reducerName","s3://amzn-s3-demo-bucket/myPath/myotherStep.jar,..."],
  "postStepCommand" : "scp localFiles remoteFiles",
  "input" : { "ref" : "MyS3Input" },
  "output" : { "ref" : "MyS3Output" }
}
```

**nota**  
Para transmitir argumentos para um aplicativo em uma etapa, é necessário especificar a Região no caminho do script, conforme mostrado no exemplo a seguir. Além disso, talvez seja necessário escapar os argumentos transmitidos. Por exemplo, se você usar `script-runner.jar` para executar um script de shell e quiser passar argumentos para o script, precisará escapar as vírgulas que os separam. O slot de etapa a seguir ilustra como fazer isso:   

```
"step" : "s3://eu-west-1.elasticmapreduce/libs/script-runner/script-runner.jar,s3://datapipeline/echo.sh,a\\\\,b\\\\,c"
```
Esta etapa usa `script-runner.jar` para executar o script de shell `echo.sh` e passa `a`, `b` e `c` como um único argumento para o script. O primeiro caractere de escape é removido do argumento resultante. Por isso, talvez você precise realizar o escape novamente. Por exemplo, se você tivesse `File\.gz` como argumento no JSON, poderia realizar o escape dele usando `File\\\\.gz`. No entanto, como o primeiro escape é descartado, você precisa usar `File\\\\\\\\.gz `.

## Sintaxe
<a name="emractivity-syntax"></a>


****  

| Campos de invocação de objetos | Description | Tipo de slot | 
| --- | --- | --- | 
| agendamento | Esse objeto é invocado durante a execução de um intervalo de programação. Especifique uma referência de programação para outro objeto para definir a ordem de execução de dependência desse objeto. É possível satisfazer esse requisito definindo explicitamente uma programação no objeto, por exemplo, ao especificar "schedule": \$1"ref": "DefaultSchedule"\$1. Na maioria dos casos, é melhor colocar a referência de programação no objeto de pipeline padrão para que todos os objetos herdem essa programação. Como alternativa, se o pipeline tiver uma árvore de programações (outras programações dentro de uma programação principal), você poderá criar um objeto principal que tenha uma referência de programação. Para obter mais informações sobre o exemplo de configurações opcionais de programação, consulte [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html). | Objeto de referência, por exemplo, “schedule”: \$1"ref”:” myScheduleId “\$1 | 

 


****  

| Grupo obrigatório (um dos seguintes é obrigatório) | Description | Tipo de slot | 
| --- | --- | --- | 
| runsOn | Cluster do Amazon EMR no qual o trabalho será executado. | Objeto de referência, por exemplo, “runsOn”: \$1"ref”:” myEmrCluster Id "\$1 | 
| workerGroup | O grupo de operadores. Isso é usado para tarefas de roteamento. Se você fornecer um valor de runsOn e workerGroup existir, será ignorado.workerGroup | String | 

 


****  

| Campos opcionais | Description | Tipo de slot | 
| --- | --- | --- | 
| attemptStatus | Status mais recente da atividade remota. | String | 
| attemptTimeout | Tempo limite para conclusão do trabalho remoto. Se definida, uma atividade remota não concluída dentro do prazo definido poderá ser executada novamente. | Período | 
| dependsOn | Especifique a dependência em outro objeto executável. | Objeto de referência, por exemplo, “dependsOn”: \$1"ref”:” myActivityId “\$1 | 
| failureAndRerunModo | Descreve o comportamento do nó do consumidor quando as dependências apresentam falhas ou são executadas novamente. | Enumeração | 
| input | O local dos dados de entrada. | Objeto de referência, por exemplo, “input”: \$1"ref”:” myDataNode Id "\$1 | 
| lateAfterTimeout | O tempo decorrido após o início do pipeline no qual o objeto deve ser concluído. Ele é acionado somente quando o tipo de programação não está definido como ondemand. | Período | 
| maxActiveInstances | O número máximo de instâncias ativas simultâneas de um componente. Novas execuções não contam para o número de instâncias ativas. | Inteiro | 
| maximumRetries | A quantidade máxima de novas tentativas após uma falha. | Inteiro | 
| onFail | Uma ação a ser executada quando há falha no objeto atual. | Objeto de referência, por exemplo, “onFail”: \$1"ref”:” myActionId “\$1 | 
| onLateAction | Ações que devem ser acionadas se um objeto ainda não foi agendado ou não foi concluído. | Objeto de referência, por exemplo, "onLateAction“: \$1" ref”:” myActionId “\$1 | 
| onSuccess | Uma ação a ser executada quando o objeto atual é executado com êxito. | Objeto de referência, por exemplo, “onSuccess”: \$1"ref”:” myActionId “\$1 | 
| saída | O local dos dados de saída. | Objeto de referência, por exemplo, “output”: \$1"ref”:” myDataNode Id "\$1 | 
| parent | O pai do objeto atual do qual os slots serão herdados. | Objeto de referência, por exemplo, “parent”: \$1"ref”:” myBaseObject Id "\$1 | 
| pipelineLogUri | O URI do Amazon S3, como 's3://BucketName/Prefix/ 'para carregar registros para o pipeline. | String | 
| postStepCommand | Scripts de shell a serem executados depois que todas as etapas são concluídas. Para especificar vários scripts, até 255, adicione vários campos postStepCommand. | String | 
| precondition | Se desejar, você pode definir uma precondição. Um nó de dados não fica marcado como "READY" até que todas as precondições tenham sido atendidas. | Objeto de referência, por exemplo, “pré-condição”: \$1"ref”:” myPreconditionId “\$1 | 
| preStepCommand | Scripts de shell a serem executados antes de qualquer etapa ser executada. Para especificar vários scripts, até 255, adicione vários campos preStepCommand. | String | 
| reportProgressTimeout | O tempo limite para as chamadas sucessivas de trabalho remoto para reportProgress. Se definidas, as atividades remotas sem progresso para o período especificado podem ser consideradas como interrompidas e executadas novamente. | Período | 
| resizeClusterBeforeCorrendo |  Redimensionar o cluster antes de executar esta atividade para acomodar tabelas do DynamoDB especificadas como entradas ou saídas.   Se você `EmrActivity` usa a `DynamoDBDataNode` como nó de dados de entrada ou saída e define o como`TRUE`, AWS Data Pipeline comece `resizeClusterBeforeRunning` a usar tipos de `m3.xlarge` instância. Isso substitui suas escolhas de tipo de instância por `m3.xlarge`, o que pode aumentar seus custos mensais.   | Booleano | 
| resizeClusterMaxInstâncias | Um limite no número máximo de instâncias que pode ser solicitado pelo algoritmo de redimensionamento. | Inteiro | 
| retryDelay | A duração do tempo limite entre duas novas tentativas. | Período | 
| scheduleType | O tipo de programação permite que você especifique se os objetos na sua definição de pipeline devem ser programados no início ou final do intervalo. Os valores são: cron, ondemand e timeseries. A programação timeseries significa que as instâncias são programadas no final de cada intervalo. A programação cron significa que as instâncias são programadas no início de cada intervalo. Uma programação ondemand permite que você execute um pipeline uma vez por ativação. Você não precisa clonar nem recriar o pipeline para executá-lo novamente. Se você usar uma programação ondemand, ela precisará ser especificada no objeto padrão, além de ser a única scheduleType especificada para objetos no pipeline. Para usar pipelines ondemand, chame a operação ActivatePipeline para cada execução subsequente.  | Enumeração | 
| step (etapa) | Uma ou mais etapas para que o cluster seja executado. Para especificar várias etapas, até 255, adicione vários campos de etapa. Use argumentos separados por vírgula após o nome JAR. Por exemplo: "s3://amzn-s3-demo-bucket/MyWork.jar,arg1,arg2,arg3". | String | 

 


****  

| Campos de tempo de execução | Description | Tipo de slot | 
| --- | --- | --- | 
| @activeInstances | Lista dos objetos da instância ativa agendados no momento. | Objeto de referência, por exemplo, “ActiveInstances”: \$1"ref”:” myRunnableObject Id "\$1 | 
| @actualEndTime | Hora em que a execução deste objeto foi concluída. | DateTime | 
| @actualStartTime | Hora em que a execução deste objeto foi iniciada. | DateTime | 
| cancellationReason | O motivo do cancelamento, se esse objeto foi cancelado. | String | 
| @cascadeFailedOn | Descrição da cadeia de dependência na qual o objeto apresentou falha. | Objeto de referência, por exemplo, "cascadeFailedOn“: \$1" ref”:” myRunnableObject Id "\$1 | 
| emrStepLog | Registros da etapa do Amazon EMR disponíveis somente nas tentativas de atividade do EMR. | String | 
| errorId | O errorId se esse objeto apresentou falha. | String | 
| errorMessage | O errorMessage se esse objeto apresentou falha. | String | 
| errorStackTrace | O rastreamento de pilha com erro se esse objeto apresentou falha. | String | 
| @finishedTime | A hora em que esse objeto terminou a execução. | DateTime | 
| hadoopJobLog | Registos de trabalho do Hadoop disponíveis nas tentativas de atividades baseadas em EMR. | String | 
| @healthStatus | O status de integridade do objeto que indica se houve sucesso ou falha na última instância concluída do objeto. | String | 
| @healthStatusFromInstanceId | ID do último objeto da instância concluído. | String | 
| @ healthStatusUpdated Hora | Hora em que o status de integridade foi atualizado pela última vez. | DateTime | 
| hostname | O nome do host do cliente que capturou a tentativa da tarefa. | String | 
| @lastDeactivatedTime | A hora em que esse objeto foi desativado pela última vez. | DateTime | 
| @ latestCompletedRun Hora | Hora da última execução concluída. | DateTime | 
| @latestRunTime | Hora da última execução programada. | DateTime | 
| @nextRunTime | Hora da próxima execução a ser programada. | DateTime | 
| reportProgressTime | A última vez que a atividade remota relatou progresso. | DateTime | 
| @scheduledEndTime | Horário de término programado para o objeto. | DateTime | 
| @scheduledStartTime | Horário de início programado para o objeto. | DateTime | 
| @status | O status deste objeto. | String | 
| @version | A versão do pipeline com que o objeto foi criado. | String | 
| @waitingOn | Descrição da lista de dependências em que este objeto está aguardando. | Objeto de referência, por exemplo, “waitingOn”: \$1"ref”:” myRunnableObject Id "\$1 | 

 


****  

| Campos do sistema | Description | Tipo de slot | 
| --- | --- | --- | 
| @error | Erro ao descrever o objeto malformado. | String | 
| @pipelineId | ID do pipeline ao qual este objeto pertence. | String | 
| @sphere | A esfera de um objeto denota seu lugar no ciclo de vida: os objetos componentes dão origem aos objetos de instância que executam os objetos de tentativa. | String | 

## Consulte também
<a name="emractivity-seealso"></a>
+ [ShellCommandActivity](dp-object-shellcommandactivity.md)
+ [CopyActivity](dp-object-copyactivity.md)
+ [EmrCluster](dp-object-emrcluster.md)

# HadoopActivity
<a name="dp-object-hadoopactivity"></a>

 Executa um MapReduce trabalho em um cluster. O cluster pode ser um cluster EMR gerenciado por AWS Data Pipeline ou outro recurso, se você usar. TaskRunner Use HadoopActivity quando quiser executar o trabalho em paralelo. Isso permite que você use os recursos de agendamento da estrutura YARN ou do negociador de MapReduce recursos no Hadoop 1. Se quiser executar o trabalho sequencialmente por meio da ação Step do Amazon EMR, você ainda poderá usar o [EmrActivity](dp-object-emractivity.md).

## Exemplos
<a name="hadoopactivity-example"></a>

**HadoopActivity usando um cluster EMR gerenciado pelo AWS Data Pipeline**  
O HadoopActivity objeto a seguir usa um EmrCluster recurso para executar um programa:

```
 {
   "name": "MyHadoopActivity",
   "schedule": {"ref": "ResourcePeriod"},
   "runsOn": {"ref": “MyEmrCluster”},
   "type": "HadoopActivity",
   "preActivityTaskConfig":{"ref":"preTaskScriptConfig”},   
   "jarUri": "/home/hadoop/contrib/streaming/hadoop-streaming.jar",
   "argument": [
     "-files",
     “s3://elasticmapreduce/samples/wordcount/wordSplitter.py“,
     "-mapper",
     "wordSplitter.py",
     "-reducer",
     "aggregate",
     "-input",
     "s3://elasticmapreduce/samples/wordcount/input/",
     "-output",
     “s3://amzn-s3-demo-bucket/MyHadoopActivity/#{@pipelineId}/#{format(@scheduledStartTime,'YYYY-MM-dd')}"
   ],
   "maximumRetries": "0",
   "postActivityTaskConfig":{"ref":"postTaskScriptConfig”},
   "hadoopQueue" : “high”
 }
```

Aqui está o correspondente*MyEmrCluster*, que configura as filas FairScheduler e no YARN para Hadoop 2: AMIs

```
{
  "id" : "MyEmrCluster",
  "type" : "EmrCluster",
   "hadoopSchedulerType" : "PARALLEL_FAIR_SCHEDULING",
  “amiVersion” : “3.7.0”,
  "bootstrapAction" : ["s3://Region.elasticmapreduce/bootstrap-actions/configure-hadoop,-z,yarn.scheduler.capacity.root.queues=low\,high\,default,-z,yarn.scheduler.capacity.root.high.capacity=50,-z,yarn.scheduler.capacity.root.low.capacity=10,-z,yarn.scheduler.capacity.root.default.capacity=30”]
}
```

Isso é o EmrCluster que você usa para configurar FairScheduler no Hadoop 1:

```
{
      "id": "MyEmrCluster",
      "type": "EmrCluster",    
      "hadoopSchedulerType": "PARALLEL_FAIR_SCHEDULING",
      "amiVersion": "2.4.8",
      "bootstrapAction": "s3://Region.elasticmapreduce/bootstrap-actions/configure-hadoop,-m,mapred.queue.names=low\\\\,high\\\\,default,-m,mapred.fairscheduler.poolnameproperty=mapred.job.queue.name"
          }
```

As EmrCluster configurações a seguir são baseadas em CapacityScheduler Hadoop 2: AMIs

```
{
      "id": "MyEmrCluster",
      "type": "EmrCluster",
      "hadoopSchedulerType": "PARALLEL_CAPACITY_SCHEDULING",
      "amiVersion": "3.7.0",
      "bootstrapAction": "s3://Region.elasticmapreduce/bootstrap-actions/configure-hadoop,-z,yarn.scheduler.capacity.root.queues=low\\\\,high,-z,yarn.scheduler.capacity.root.high.capacity=40,-z,yarn.scheduler.capacity.root.low.capacity=60"
    }
```

**HadoopActivity usando um cluster EMR existente**  
Neste exemplo, você usa grupos de trabalho e a TaskRunner para executar um programa em um cluster EMR existente. A seguinte definição de pipeline é usada HadoopActivity para: 
+ Execute um MapReduce programa somente com *myWorkerGroup* recursos. Para obter mais informações sobre grupos de operadores, consulte [Executar trabalho em recursos existentes usando o Task Runner](dp-how-task-runner-user-managed.md).
+ Execute um preActivityTask Config e Config postActivityTask

```
{
  "objects": [
    {
      "argument": [
        "-files",
        "s3://elasticmapreduce/samples/wordcount/wordSplitter.py",
        "-mapper",
        "wordSplitter.py",
        "-reducer",
        "aggregate",
        "-input",
        "s3://elasticmapreduce/samples/wordcount/input/",
        "-output",
        "s3://amzn-s3-demo-bucket/MyHadoopActivity/#{@pipelineId}/#{format(@scheduledStartTime,'YYYY-MM-dd')}"
      ],
      "id": "MyHadoopActivity",
      "jarUri": "/home/hadoop/contrib/streaming/hadoop-streaming.jar",
      "name": "MyHadoopActivity",
      "type": "HadoopActivity"
    },
    {
      "id": "SchedulePeriod",
      "startDateTime": "start_datetime",
      "name": "SchedulePeriod",
      "period": "1 day",
      "type": "Schedule",
      "endDateTime": "end_datetime"
    },
    {
      "id": "ShellScriptConfig",
      "scriptUri": "s3://amzn-s3-demo-bucket/scripts/preTaskScript.sh",
      "name": "preTaskScriptConfig",
      "scriptArgument": [
        "test",
        "argument"
      ],
      "type": "ShellScriptConfig"
    },
    {
      "id": "ShellScriptConfig",
      "scriptUri": "s3://amzn-s3-demo-bucket/scripts/postTaskScript.sh",
      "name": "postTaskScriptConfig",
      "scriptArgument": [
        "test",
        "argument"
      ],
      "type": "ShellScriptConfig"
    },
    {
      "id": "Default",
      "scheduleType": "cron",
      "schedule": {
        "ref": "SchedulePeriod"
      },
      "name": "Default",
      "pipelineLogUri": "s3://amzn-s3-demo-bucket/logs/2015-05-22T18:02:00.343Z642f3fe415",
      "maximumRetries": "0",    
      "workerGroup": "myWorkerGroup",
      "preActivityTaskConfig": {
        "ref": "preTaskScriptConfig"
      },
      "postActivityTaskConfig": {
        "ref": "postTaskScriptConfig"
      }    
    }
  ] 
}
```

## Sintaxe
<a name="hadoopactivity-syntax"></a>


****  

| Campos obrigatórios | Description | Tipo de slot | 
| --- | --- | --- | 
| jarUri | Localização de um JAR no Amazon S3 ou no sistema de arquivos local do cluster com o qual executar. HadoopActivity | String | 

 


****  

| Campos de invocação de objetos | Description | Tipo de slot | 
| --- | --- | --- | 
| agendamento | Esse objeto é invocado durante a execução de um intervalo de programação. Os usuários precisam especificar uma referência de programação para outro objeto de modo a definir a ordem de execução de dependência desse objeto. Os usuários podem satisfazer esse requisito definindo explicitamente uma programação no objeto, por exemplo, especificando “agenda”: \$1"ref”: "DefaultSchedule“\$1. Na maioria dos casos, é melhor colocar a referência de programação no objeto de pipeline padrão para que todos os objetos herdem essa programação. Como alternativa, se o pipeline tiver uma árvore de programações (outras programações dentro de uma programação principal), os usuários poderão criar um objeto principal que tenha uma referência de programação. Para obter mais informações sobre o exemplo de configurações opcionais de programação, consulte [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html). | Objeto de referência, por exemplo, “agenda”: \$1"ref”:” myScheduleId “\$1 | 

 


****  

| Grupo obrigatório (um dos seguintes é obrigatório) | Description | Tipo de slot | 
| --- | --- | --- | 
| runsOn | Cluster do EMR no qual o trabalho será executado. | Objeto de referência, por exemplo, “runsOn”: \$1"ref”:” myEmrCluster Id "\$1 | 
| workerGroup | O grupo de operadores. Isso é usado para tarefas de roteamento. Se você fornecer um valor de runsOn e workerGroup existir, workerGroup será ignorado. | String | 

 


****  

| Campos opcionais | Description | Tipo de slot | 
| --- | --- | --- | 
| argument | Os argumentos a serem transmitidos ao JAR. | String | 
| attemptStatus | Status mais recente da atividade remota. | String | 
| attemptTimeout | Tempo limite para conclusão do trabalho remoto. Se configurada, uma atividade remota não concluída dentro do prazo definido poderá ser executada novamente. | Período | 
| dependsOn | Especifique a dependência em outro objeto executável. | Objeto de referência, por exemplo, “dependsOn”: \$1"ref”:” myActivityId “\$1 | 
| failureAndRerunModo | Descreve o comportamento do nó do consumidor quando as dependências apresentam falhas ou são executadas novamente. | Enumeração | 
| hadoopQueue | O nome da fila do programador do Hadoop em que a atividade será enviada. | String | 
| input | Local dos dados de entrada. | Objeto de referência, por exemplo, “input”: \$1"ref”:” myDataNode Id "\$1 | 
| lateAfterTimeout | O tempo decorrido após o início do pipeline no qual o objeto deve ser concluído. Ele é acionado somente quando o tipo de programação não está definido como ondemand. | Período | 
| mainClass | A classe principal do JAR com HadoopActivity a qual você está executando. | String | 
| maxActiveInstances | O número máximo de instâncias ativas simultâneas de um componente. Novas execuções não contam para o número de instâncias ativas. | Inteiro | 
| maximumRetries | Quantidade máxima de novas tentativas com falha. | Inteiro | 
| onFail | Uma ação a ser executada quando há falha no objeto atual. | Objeto de referência, por exemplo, “onFail”: \$1"ref”:” myActionId “\$1 | 
| onLateAction | Ações que devem ser acionadas se um objeto ainda não foi agendado ou não foi concluído. | Objeto de referência, por exemplo, "onLateAction“: \$1" ref”:” myActionId “\$1 | 
| onSuccess | Uma ação a ser executada quando o objeto atual é executado com êxito. | Objeto de referência, por exemplo, “onSuccess”: \$1"ref”:” myActionId “\$1 | 
| saída | Local dos dados de saída. | Objeto de referência, por exemplo, “output”: \$1"ref”:” myDataNode Id "\$1 | 
| parent | Pai do objeto atual a partir do qual os slots serão herdados. | Objeto de referência, por exemplo, “parent”: \$1"ref”:” myBaseObject Id "\$1 | 
| pipelineLogUri | O URI do S3 (como 's3://BucketName/Key/ ') para carregar registros para o pipeline. | String | 
| postActivityTaskConfig | Script de configuração pós-atividade a ser executado. Consiste em um URI do script de shell no Amazon S3 e uma lista de argumentos. | Objeto de referência, por exemplo, "postActivityTaskConfig”: \$1"ref”:” myShellScript ConfigId “\$1 | 
| preActivityTaskConfig | Script de configuração pré-atividade a ser executado. Consiste em um URI do script de shell no Amazon S3 e uma lista de argumentos. | Objeto de referência, por exemplo, "preActivityTaskConfig”: \$1"ref”:” myShellScript ConfigId “\$1 | 
| precondition | Se desejar, você pode definir uma precondição. Um nó de dados não fica marcado como "READY" até que todas as precondições tenham sido atendidas. | Objeto de referência, por exemplo, “pré-condição”: \$1"ref”:” myPreconditionId “\$1 | 
| reportProgressTimeout | Tempo limite para as chamadas sucessivas de trabalho remoto para reportProgress. Se definidas, as atividades remotas sem progresso para o período especificado podem ser consideradas como interrompidas e executadas novamente. | Período | 
| retryDelay | A duração do tempo limite entre duas novas tentativas. | Período | 
| scheduleType | O tipo de programação permite que você especifique se os objetos na sua definição de pipeline devem ser programados no início ou no final do intervalo. Programação com estilo de séries temporais significa que as instâncias são programadas no final de cada intervalo, e Programação com estilo Cron significa que as instâncias são programadas no início de cada intervalo. Uma programação sob demanda permite que você execute um pipeline uma vez por ativação. Isso significa que você não precisa clonar nem recriar o pipeline para executá-lo novamente. Se você usar uma programação sob demanda, ela precisará ser especificada no objeto padrão, além de ser a única scheduleType especificada para objetos no pipeline. Para usar pipelines sob demanda, basta chamar a ActivatePipeline operação para cada execução subsequente. Os valores são: cron, ondemand e timeseries. | Enumeração | 

 


****  

| Campos de tempo de execução | Description | Tipo de slot | 
| --- | --- | --- | 
| @activeInstances | Lista dos objetos da instância ativa agendados no momento. | Objeto de referência, por exemplo, “ActiveInstances”: \$1"ref”:” myRunnableObject Id "\$1 | 
| @actualEndTime | Hora em que a execução deste objeto foi concluída. | DateTime | 
| @actualStartTime | Hora em que a execução deste objeto foi iniciada. | DateTime | 
| cancellationReason | O motivo do cancelamento, se esse objeto foi cancelado. | String | 
| @cascadeFailedOn | Descrição da cadeia de dependência na qual o objeto apresentou falha. | Objeto de referência, por exemplo, "cascadeFailedOn“: \$1" ref”:” myRunnableObject Id "\$1 | 
| emrStepLog | Registros da etapa do EMR disponíveis somente nas tentativas de atividade do EMR. | String | 
| errorId | O ID do erro se esse objeto apresentou falha. | String | 
| errorMessage | A mensagem de erro se esse objeto apresentou falha. | String | 
| errorStackTrace | O rastreamento de pilha com erro se esse objeto apresentou falha. | String | 
| @finishedTime | A hora em que esse objeto terminou a execução. | DateTime | 
| hadoopJobLog | Registos de trabalho do Hadoop disponíveis nas tentativas de atividades baseadas em EMR. | String | 
| @healthStatus | O status de integridade do objeto que indica se houve sucesso ou falha na última instância concluída do objeto. | String | 
| @healthStatusFromInstanceId | ID do último objeto da instância concluído. | String | 
| @ healthStatusUpdated Hora | Hora em que o status de integridade foi atualizado pela última vez. | DateTime | 
| hostname | O nome do host do cliente que capturou a tentativa da tarefa. | String | 
| @lastDeactivatedTime | A hora em que esse objeto foi desativado pela última vez. | DateTime | 
| @ latestCompletedRun Hora | Hora da última execução concluída. | DateTime | 
| @latestRunTime | Hora da última execução programada. | DateTime | 
| @nextRunTime | Hora da próxima execução a ser programada. | DateTime | 
| reportProgressTime | A última vez que a atividade remota relatou progresso. | DateTime | 
| @scheduledEndTime | Horário de término da programação para o objeto. | DateTime | 
| @scheduledStartTime | Horário de início da programação para o objeto. | DateTime | 
| @status | O status deste objeto. | String | 
| @version | A versão do pipeline com que o objeto foi criado. | String | 
| @waitingOn | Descrição da lista de dependências em que este objeto está aguardando. | Objeto de referência, por exemplo, “waitingOn”: \$1"ref”:” myRunnableObject Id "\$1 | 

 


****  

| Campos do sistema | Description | Tipo de slot | 
| --- | --- | --- | 
| @error | Erro ao descrever o objeto malformado. | String | 
| @pipelineId | ID do pipeline ao qual este objeto pertence. | String | 
| @sphere | A esfera de um objeto denota seu lugar no ciclo de vida: os objetos componentes dão origem aos objetos de instância que executam os objetos de tentativa. | String | 

## Consulte também
<a name="hadoopactivity-seealso"></a>
+ [ShellCommandActivity](dp-object-shellcommandactivity.md)
+ [CopyActivity](dp-object-copyactivity.md)
+ [EmrCluster](dp-object-emrcluster.md)

# HiveActivity
<a name="dp-object-hiveactivity"></a>

Executa uma consulta do Hive em um cluster do EMR. O `HiveActivity` facilita a configuração de uma atividade do Amazon EMR e cria automaticamente tabelas do Hive com base nos dados de entrada provenientes do Amazon S3 ou do Amazon RDS. Tudo o que você precisa especificar é o HiveQL a ser executado nos dados de origem. AWS Data Pipeline cria automaticamente tabelas do Hive com`${input1}`,`${input2}`, e assim por diante, com base nos campos de entrada no `HiveActivity` objeto. 

Para as entradas do Amazon S3, o campo `dataFormat` é usado para criar os nomes das colunas do Hive. 

Para entradas MySQL (Amazon RDS), os nomes das colunas para a consulta SQL são usados para criar os nomes das colunas do Hive.

**nota**  
Essa atividade usa o [CSV Serde](https://cwiki.apache.org/confluence/display/Hive/CSV+Serde) do Hive.

## Exemplo
<a name="hiveactivity-example"></a>

Veja a seguir um exemplo deste tipo de objeto. Esse objeto faz referência a três outros objetos definidos por você no mesmo arquivo de definição de pipeline. `MySchedule` é um objeto `Schedule` e `MyS3Input` e `MyS3Output` são objetos de nó de dados.

```
{
  "name" : "ProcessLogData",
  "id" : "MyHiveActivity",
  "type" : "HiveActivity",
  "schedule" : { "ref": "MySchedule" },
  "hiveScript" : "INSERT OVERWRITE TABLE ${output1} select host,user,time,request,status,size from ${input1};",
  "input" : { "ref": "MyS3Input" },
  "output" : { "ref": "MyS3Output" },
  "runsOn" : { "ref": "MyEmrCluster" }
}
```

## Sintaxe
<a name="hiveactivity-syntax"></a>


****  

| Campos de invocação de objetos | Description | Tipo de slot | 
| --- | --- | --- | 
| agendamento | Esse objeto é invocado durante a execução de um intervalo de programação. Especifique uma referência de programação para outro objeto para definir a ordem de execução de dependência desse objeto. Você pode satisfazer esse requisito definindo explicitamente uma programação no objeto, por exemplo, especificando “agenda”: \$1"ref”: "DefaultSchedule“\$1. Na maioria dos casos, é melhor colocar a referência de programação no objeto de pipeline padrão para que todos os objetos herdem essa programação. Como alternativa, se o pipeline tiver uma árvore de programações (outras programações dentro de uma programação principal), você poderá criar um objeto principal que tenha uma referência de programação. Para obter mais informações sobre o exemplo de configurações opcionais de programação, consulte [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html). | Objeto de referência, por exemplo, “agenda”: \$1"ref”:” myScheduleId “\$1 | 

 


****  

| Grupo obrigatório (um dos seguintes é obrigatório) | Description | Tipo de slot | 
| --- | --- | --- | 
| hiveScript | O script Hive a ser executado. | String | 
| scriptUri | O local do script Hive a ser executado (por exemplo, s3://scriptLocation). | String | 

 


****  

| Grupo obrigatório | Description | Tipo de slot | 
| --- | --- | --- | 
| runsOn | O cluster do EMR em que HiveActivity está sendo executada. | Objeto de referência, por exemplo, “runsOn”: \$1"ref”:” myEmrCluster Id "\$1 | 
| workerGroup | O grupo de operadores. Isso é usado para tarefas de roteamento. Se você fornecer um valor de runsOn e workerGroup existir, será ignorado.workerGroup | String | 
| input | A fonte de dados de entrada. | Objeto de referência, como “input”: \$1"ref”:” myDataNode Id "\$1 | 
| saída | A fonte de dados de saída. | Objeto de referência, como “output”: \$1"ref”:” myDataNode Id "\$1 | 

 


****  

| Campos opcionais | Description | Tipo de slot | 
| --- | --- | --- | 
| attemptStatus | Status mais recente da atividade remota. | String | 
| attemptTimeout | Tempo limite para conclusão do trabalho remoto. Se definida, uma atividade remota não concluída dentro do prazo definido poderá ser executada novamente. | Período | 
| dependsOn | Especifique a dependência em outro objeto executável. | Objeto de referência, como “dependsOn”: \$1"ref”:” myActivityId “\$1 | 
| failureAndRerunModo | Descreve o comportamento do nó do consumidor quando as dependências apresentam falhas ou são executadas novamente. | Enumeração | 
| hadoopQueue | O nome da fila do programador do Hadoop em que o trabalho será enviado. | String | 
| lateAfterTimeout | O tempo decorrido após o início do pipeline no qual o objeto deve ser concluído. Ele é acionado somente quando o tipo de programação não está definido como ondemand. | Período | 
| maxActiveInstances | O número máximo de instâncias ativas simultâneas de um componente. Novas execuções não contam para o número de instâncias ativas. | Inteiro | 
| maximumRetries | A quantidade máxima de novas tentativas após uma falha. | Inteiro | 
| onFail | Uma ação a ser executada quando há falha no objeto atual. | Objeto de referência, como “onFail”: \$1"ref”:” myActionId “\$1 | 
| onLateAction | Ações que devem ser acionadas se um objeto ainda não foi agendado ou não foi concluído. | Objeto de referência, como "onLateAction“: \$1" ref”:” myActionId “\$1 | 
| onSuccess | Uma ação a ser executada quando o objeto atual é executado com êxito. | Objeto de referência, como “onSuccess”: \$1"ref”:” myActionId “\$1 | 
| parent | Pai do objeto atual a partir do qual os slots serão herdados. | Objeto de referência, como “parent”: \$1"ref”:” myBaseObject Id "\$1 | 
| pipelineLogUri | O URI do S3 (como 's3://BucketName/Key/ ') para carregar registros para o pipeline. | String | 
| postActivityTaskConfig | Script de configuração pós-atividade a ser executado. Consiste em um URI do script de shell no Amazon S3 e uma lista de argumentos. | Objeto de referência, como "postActivityTaskConfig”: \$1"ref”:” myShellScript ConfigId “\$1 | 
| preActivityTaskConfig | Script de configuração pré-atividade a ser executado. Consiste em um URI do script de shell no Amazon S3 e uma lista de argumentos. | Objeto de referência, como "preActivityTaskConfig”: \$1"ref”:” myShellScript ConfigId “\$1 | 
| precondition | Se desejar, você pode definir uma precondição. Um nó de dados não fica marcado como "READY" até que todas as precondições tenham sido atendidas. | Objeto de referência, como “pré-condição”: \$1"ref”:” myPreconditionId “\$1 | 
| reportProgressTimeout | Tempo limite para as chamadas sucessivas de trabalho remoto para reportProgress. Se definidas, as atividades remotas sem progresso para o período especificado podem ser consideradas como interrompidas e executadas novamente. | Período | 
| resizeClusterBeforeCorrendo | Redimensione o cluster antes de executar esta atividade para acomodar nós de dados do DynamoDB especificados como entradas ou saídas.  Se sua atividade usa a `DynamoDBDataNode` como um nó de dados de entrada ou saída, e se você definir o como`TRUE`, AWS Data Pipeline comece `resizeClusterBeforeRunning` a usar tipos de `m3.xlarge` instância. Isso substitui suas escolhas de tipo de instância por `m3.xlarge`, o que pode aumentar seus custos mensais.  | Booleano | 
| resizeClusterMaxInstâncias | Um limite no número máximo de instâncias que pode ser solicitado pelo algoritmo de redimensionamento. | Inteiro | 
| retryDelay | A duração do tempo limite entre duas novas tentativas. | Período | 
| scheduleType | O tipo de programação permite que você especifique se os objetos na sua definição de pipeline devem ser programados no início ou no final do intervalo. Programação com estilo de séries temporais significa que as instâncias são programadas no final de cada intervalo, e Programação com estilo Cron significa que as instâncias são programadas no início de cada intervalo. Uma programação sob demanda permite que você execute um pipeline uma vez por ativação. Isso significa que você não precisa clonar nem recriar o pipeline para executá-lo novamente. Se você usar uma programação sob demanda, ela precisará ser especificada no objeto padrão, além de ser a única scheduleType especificada para objetos no pipeline. Para usar pipelines sob demanda, basta chamar a ActivatePipeline operação para cada execução subsequente. Os valores são: cron, ondemand e timeseries. | Enumeração | 
| scriptVariable | Especifica variáveis de script para o Amazon EMR para serem passadas para o Hive durante a execução de um script. Por exemplo, as seguintes variáveis do script de exemplo enviariam variáveis SAMPLE e FILTER\$1DATE para o Hive: SAMPLE=s3://elasticmapreduce/samples/hive-ads e  FILTER\$1DATE=\$1\$1format(@scheduledStartTime,'YYYY-MM-dd')\$1%. Este campo aceita vários valores e funciona com os campos script e scriptUri. Além disso, o scriptVariable funciona independentemente do estágio estar definido como true ou false. Este campo é especialmente útil para enviar valores dinâmicos para o Hive usando expressões e funções do AWS Data Pipeline . | String | 
| stage | Determina se a migração de dados está habilitada antes ou depois de executar o script. Não é permitido com o Hive 11, para uso em uma AMI do Amazon EMR versão 3.2.0 ou superior. | Booleano | 

 


****  

| Campos de tempo de execução | Description | Tipo de slot | 
| --- | --- | --- | 
| @activeInstances | Lista dos objetos da instância ativa agendados no momento. | Objeto de referência, como “ActiveInstances”: \$1"ref”:” myRunnableObject Id "\$1 | 
| @actualEndTime | Hora em que a execução deste objeto foi concluída. | DateTime | 
| @actualStartTime | Hora em que a execução deste objeto foi iniciada. | DateTime | 
| cancellationReason | O motivo do cancelamento, se esse objeto foi cancelado. | String | 
| @cascadeFailedOn | Descrição da cadeia de dependência na qual o objeto apresentou falha. | Objeto de referência, como "cascadeFailedOn“: \$1" ref”:” myRunnableObject Id "\$1 | 
| emrStepLog | Registros da etapa do Amazon EMR disponíveis somente nas tentativas de atividade do EMR. | String | 
| errorId | O ID do erro se esse objeto apresentou falha. | String | 
| errorMessage | A mensagem de erro se esse objeto apresentou falha. | String | 
| errorStackTrace | O rastreamento de pilha com erro se esse objeto apresentou falha. | String | 
| @finishedTime | A hora em que esse objeto terminou a execução. | DateTime | 
| hadoopJobLog | Registos de trabalho do Hadoop disponíveis nas tentativas de atividades baseadas em EMR. | String | 
| @healthStatus | O status de integridade do objeto que indica se houve sucesso ou falha na última instância concluída do objeto. | String | 
| @healthStatusFromInstanceId | ID do último objeto da instância concluído. | String | 
| @ healthStatusUpdated Hora | Hora em que o status de integridade foi atualizado pela última vez. | DateTime | 
| hostname | O nome do host do cliente que capturou a tentativa da tarefa. | String | 
| @lastDeactivatedTime | A hora em que esse objeto foi desativado pela última vez. | DateTime | 
| @ latestCompletedRun Hora | Hora da última execução concluída. | DateTime | 
| @latestRunTime | Hora da última execução programada. | DateTime | 
| @nextRunTime | Hora da próxima execução a ser programada. | DateTime | 
| reportProgressTime | A última vez que a atividade remota relatou progresso. | DateTime | 
| @scheduledEndTime | Horário de término programado para um objeto. | DateTime | 
| @scheduledStartTime | Horário de início programado para um objeto. | DateTime | 
| @status | O status deste objeto. | String | 
| @version | A versão do pipeline com que o objeto foi criado. | String | 
| @waitingOn | Descrição da lista de dependências em que este objeto está aguardando. | Objeto de referência, como “waitingOn”: \$1"ref”:” myRunnableObject Id "\$1 | 

 


****  

| Campos do sistema | Description | Tipo de slot | 
| --- | --- | --- | 
| @error | Erro ao descrever o objeto malformado. | String | 
| @pipelineId | ID do pipeline ao qual este objeto pertence. | String | 
| @sphere | A esfera de um objeto denota seu lugar no ciclo de vida: os objetos componentes dão origem aos objetos de instância que executam os objetos de tentativa. | String | 

## Consulte também
<a name="hiveactivity-seealso"></a>
+ [ShellCommandActivity](dp-object-shellcommandactivity.md)
+ [EmrActivity](dp-object-emractivity.md)

# HiveCopyActivity
<a name="dp-object-hivecopyactivity"></a>

Executa uma consulta do Hive em um cluster do EMR. O `HiveCopyActivity` facilita a cópia de dados entre tabelas do DynamoDB. O `HiveCopyActivity` aceita uma instrução do HiveQL para filtrar dados de entrada do nos níveis da coluna e da linha.

## Exemplo
<a name="hivecopyactivity-example"></a>

O exemplo a seguir mostra como usar `HiveCopyActivity` e `DynamoDBExportDataFormat` para copiar dados de um `DynamoDBDataNode` para outro ao filtrar dados com base em um time stamp.

```
{
  "objects": [
    {
      "id" : "DataFormat.1",
      "name" : "DataFormat.1",
      "type" : "DynamoDBExportDataFormat",
      "column" : "timeStamp BIGINT"
    },
    {
      "id" : "DataFormat.2",
      "name" : "DataFormat.2",
      "type" : "DynamoDBExportDataFormat"
    },
    {
      "id" : "DynamoDBDataNode.1",
      "name" : "DynamoDBDataNode.1",
      "type" : "DynamoDBDataNode",
      "tableName" : "item_mapped_table_restore_temp",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.1" }
    },
    {
      "id" : "DynamoDBDataNode.2",
      "name" : "DynamoDBDataNode.2",
      "type" : "DynamoDBDataNode",
      "tableName" : "restore_table",
      "region" : "us_west_1",
      "schedule" : { "ref" : "ResourcePeriod" },
      "dataFormat" : { "ref" : "DataFormat.2" }
    },
    {
      "id" : "EmrCluster.1",
      "name" : "EmrCluster.1",
      "type" : "EmrCluster",
      "schedule" : { "ref" : "ResourcePeriod" },
      "masterInstanceType" : "m1.xlarge",
      "coreInstanceCount" : "4"
    },
    {
      "id" : "HiveTransform.1",
      "name" : "Hive Copy Transform.1",
      "type" : "HiveCopyActivity",
      "input" : { "ref" : "DynamoDBDataNode.1" },
      "output" : { "ref" : "DynamoDBDataNode.2" },
      "schedule" :{ "ref" : "ResourcePeriod" },
      "runsOn" : { "ref" : "EmrCluster.1" },
      "filterSql" : "`timeStamp` > unix_timestamp(\"#{@scheduledStartTime}\", \"yyyy-MM-dd'T'HH:mm:ss\")"
    },
    {
      "id" : "ResourcePeriod",
      "name" : "ResourcePeriod",
      "type" : "Schedule",
      "period" : "1 Hour",
      "startDateTime" : "2013-06-04T00:00:00",
      "endDateTime" : "2013-06-04T01:00:00"
    }
  ]
}
```

## Sintaxe
<a name="hivecopyactivity-syntax"></a>


****  

| Campos de invocação de objetos | Description | Tipo de slot | 
| --- | --- | --- | 
| agendamento | Esse objeto é invocado durante a execução de um intervalo de programação. Os usuários precisam especificar uma referência de programação para outro objeto de modo a definir a ordem de execução de dependência desse objeto. Os usuários podem satisfazer esse requisito definindo explicitamente uma programação no objeto, por exemplo, especificando “agenda”: \$1"ref”: "DefaultSchedule“\$1. Na maioria dos casos, é melhor colocar a referência de programação no objeto de pipeline padrão para que todos os objetos herdem essa programação. Como alternativa, se o pipeline tiver uma árvore de programações (outras programações dentro de uma programação principal), os usuários poderão criar um objeto principal que tenha uma referência de programação. Para obter mais informações sobre o exemplo de configurações opcionais de programação, consulte [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html). | Objeto de referência, por exemplo, “agenda”: \$1"ref”:” myScheduleId “\$1 | 

 


****  

| Grupo obrigatório (um dos seguintes é obrigatório) | Description | Tipo de slot | 
| --- | --- | --- | 
| runsOn | Especifique o cluster de execução. | Objeto de referência, por exemplo, “runsOn”: \$1"ref”:” myResourceId “\$1 | 
| workerGroup | O grupo de operadores. Isso é usado para tarefas de roteamento. Se você fornecer um valor de runsOn e workerGroup existir, será ignorado.workerGroup | String | 

 


****  

| Campos opcionais | Description | Tipo de slot | 
| --- | --- | --- | 
| attemptStatus | O status mais recente da atividade remota. | String | 
| attemptTimeout | O tempo limite para a conclusão do trabalho remoto. Se definida, uma atividade remota não concluída dentro do prazo definido poderá ser executada novamente. | Período | 
| dependsOn | Especifica a dependência em outro objeto executável. | Objeto de referência, por exemplo, “dependsOn”: \$1"ref”:” myActivityId “\$1 | 
| failureAndRerunModo | Descreve o comportamento do nó do consumidor quando as dependências apresentam falhas ou são executadas novamente. | Enumeração | 
| filterSql | Um fragmento de instrução do Hive SQL que filtra um subconjunto dos dados do DynamoDB ou do Amazon S3 a serem copiados. O filtro deve conter apenas predicados e não começar com uma WHERE cláusula, pois a AWS Data Pipeline adiciona automaticamente. | String | 
| input | A fonte de dados de entrada. Deve ser S3DataNode ou DynamoDBDataNode. Se você usar DynamoDBNode, especifique um DynamoDBExportDataFormat. | Objeto de referência, por exemplo, “input”: \$1"ref”:” myDataNode Id "\$1 | 
| lateAfterTimeout | O tempo decorrido após o início do pipeline no qual o objeto deve ser concluído. Ele é acionado somente quando o tipo de programação não está definido como ondemand. | Período | 
| maxActiveInstances | O número máximo de instâncias ativas simultâneas de um componente. Novas execuções não contam para o número de instâncias ativas. | Inteiro | 
| maximumRetries | A quantidade máxima de novas tentativas após uma falha. | Inteiro | 
| onFail | Uma ação a ser executada quando há falha no objeto atual. | Objeto de referência, por exemplo, “onFail”: \$1"ref”:” myActionId “\$1 | 
| onLateAction | Ações que devem ser acionadas se um objeto ainda não foi agendado ou não foi concluído. | Objeto de referência, por exemplo, "onLateAction“: \$1" ref”:” myActionId “\$1 | 
| onSuccess | Uma ação a ser executada quando o objeto atual é executado com êxito. | Objeto de referência, por exemplo, “onSuccess”: \$1"ref”:” myActionId “\$1 | 
| saída | A fonte de dados de saída. Se a entrada for S3DataNode, a saída precisará ser DynamoDBDataNode. Caso contrário, ela poderá ser S3DataNode ou DynamoDBDataNode. Se você usar DynamoDBNode, especifique um DynamoDBExportDataFormat. | Objeto de referência, por exemplo, “output”: \$1"ref”:” myDataNode Id "\$1 | 
| parent | O pai do objeto atual do qual os slots serão herdados. | Objeto de referência, por exemplo, “parent”: \$1"ref”:” myBaseObject Id "\$1 | 
| pipelineLogUri | O URI do Amazon S3, como o  's3://BucketName/Key/', para fazer upload de logs para o pipeline. | String | 
| postActivityTaskConfig | O Script de configuração pós-atividade a ser executado. Consiste em um URI do script de shell no Amazon S3 e uma lista de argumentos. | Objeto de referência, por exemplo, "postActivityTaskConfig”: \$1"ref”:” myShellScript ConfigId “\$1 | 
| preActivityTaskConfig | O script de configuração pré-atividade a ser executado. Consiste em um URI do script de shell no Amazon S3 e uma lista de argumentos. | Objeto de referência, por exemplo, "preActivityTaskConfig”: \$1"ref”:” myShellScript ConfigId “\$1 | 
| precondition | Opcionalmente define uma precondição. Um nó de dados não fica marcado como "READY" até que todas as precondições tenham sido atendidas. | Objeto de referência, por exemplo, “pré-condição”: \$1"ref”:” myPreconditionId “\$1 | 
| reportProgressTimeout | O tempo limite para as chamadas sucessivas de trabalho remoto para reportProgress. Se definidas, as atividades remotas sem progresso para o período especificado podem ser consideradas como interrompidas e executadas novamente. | Período | 
| resizeClusterBeforeCorrendo | Redimensione o cluster antes de executar esta atividade para acomodar nós de dados do DynamoDB especificados como entradas ou saídas.  Se sua atividade usa a `DynamoDBDataNode` como um nó de dados de entrada ou saída, e se você definir o como`TRUE`, AWS Data Pipeline comece `resizeClusterBeforeRunning` a usar tipos de `m3.xlarge` instância. Isso substitui suas escolhas de tipo de instância por `m3.xlarge`, o que pode aumentar seus custos mensais.  | Booleano | 
| resizeClusterMaxInstâncias | Um limite no número máximo de instâncias que pode ser solicitado pelo algoritmo de redimensionamento | Inteiro | 
| retryDelay | A duração do tempo limite entre duas novas tentativas. | Período | 
| scheduleType | O tipo de programação permite que você especifique se os objetos na sua definição de pipeline devem ser programados no início ou no final do intervalo. Programação com estilo de séries temporais significa que as instâncias são programadas no final de cada intervalo, e Programação com estilo Cron significa que as instâncias são programadas no início de cada intervalo. Uma programação sob demanda permite que você execute um pipeline uma vez por ativação. Isso significa que você não precisa clonar nem recriar o pipeline para executá-lo novamente. Se você usar uma programação sob demanda, ela precisará ser especificada no objeto padrão, além de ser a única scheduleType especificada para objetos no pipeline. Para usar pipelines sob demanda, basta chamar a ActivatePipeline operação para cada execução subsequente. Os valores são: cron, ondemand e timeseries. | Enumeração | 

 


****  

| Campos de tempo de execução | Description | Tipo de slot | 
| --- | --- | --- | 
| @activeInstances | Lista dos objetos da instância ativa agendados no momento. | Objeto de referência, por exemplo, “ActiveInstances”: \$1"ref”:” myRunnableObject Id "\$1 | 
| @actualEndTime | Hora em que a execução deste objeto foi concluída. | DateTime | 
| @actualStartTime | Hora em que a execução deste objeto foi iniciada. | DateTime | 
| cancellationReason | O motivo do cancelamento, se esse objeto foi cancelado. | String | 
| @cascadeFailedOn | Descrição da cadeia de dependência na qual o objeto apresentou falha. | Objeto de referência, por exemplo, "cascadeFailedOn“: \$1" ref”:” myRunnableObject Id "\$1 | 
| emrStepLog | Registros da etapa do Amazon EMR disponíveis somente nas tentativas de atividade do EMR. | String | 
| errorId | O ID do erro se esse objeto apresentou falha. | String | 
| errorMessage | A mensagem de erro se esse objeto apresentou falha. | String | 
| errorStackTrace | O rastreamento de pilha com erro se esse objeto apresentou falha. | String | 
| @finishedTime | A hora em que esse objeto terminou a execução. | DateTime | 
| hadoopJobLog | Registos de trabalho do Hadoop disponíveis nas tentativas de atividades baseadas em EMR. | String | 
| @healthStatus | O status de integridade do objeto que indica se houve sucesso ou falha na última instância concluída do objeto. | String | 
| @healthStatusFromInstanceId | ID do último objeto da instância concluído. | String | 
| @ healthStatusUpdated Hora | Hora em que o status de integridade foi atualizado pela última vez. | DateTime | 
| hostname | O nome do host do cliente que capturou a tentativa da tarefa. | String | 
| @lastDeactivatedTime | A hora em que esse objeto foi desativado pela última vez. | DateTime | 
| @ latestCompletedRun Hora | Hora da última execução concluída. | DateTime | 
| @latestRunTime | Hora da última execução programada. | DateTime | 
| @nextRunTime | Hora da próxima execução a ser programada. | DateTime | 
| reportProgressTime | A última vez em que a atividade remota relatou progresso. | DateTime | 
| @scheduledEndTime | Horário de término da programação para o objeto. | DateTime | 
| @scheduledStartTime | Horário de início da programação para o objeto. | DateTime | 
| @status | O status deste objeto. | String | 
| @version | A versão do pipeline com que o objeto foi criado. | String | 
| @waitingOn | Descrição da lista de dependências em que este objeto está aguardando. | Objeto de referência, por exemplo, “waitingOn”: \$1"ref”:” myRunnableObject Id "\$1 | 

 


****  

| Campos do sistema | Description | Tipo de slot | 
| --- | --- | --- | 
| @error | Erro ao descrever o objeto malformado. | String | 
| @pipelineId | ID do pipeline ao qual este objeto pertence. | String | 
| @sphere | A esfera de um objeto denota seu lugar no ciclo de vida: os objetos componentes dão origem aos objetos de instância que executam os objetos de tentativa. | String | 

## Consulte também
<a name="hivecopyactivity-seealso"></a>
+ [ShellCommandActivity](dp-object-shellcommandactivity.md)
+ [EmrActivity](dp-object-emractivity.md)

# PigActivity
<a name="dp-object-pigactivity"></a>

PigActivity fornece suporte nativo para scripts Pig AWS Data Pipeline sem a necessidade de usar `ShellCommandActivity` ou`EmrActivity`. Além disso, PigActivity oferece suporte ao armazenamento de dados. Quando o campo de estágio é definido como verdadeiro, o AWS Data Pipeline prepara os dados de entrada como um esquema em Pig sem um código adicional do usuário. 

## Exemplo
<a name="pigactivity-example"></a>

O exemplo de pipeline a seguir mostra como usar `PigActivity`. O exemplo de pipeline a seguir executa as seguintes etapas:
+ MyPigActivity1 carrega dados do Amazon S3 e executa um script Pig que seleciona algumas colunas de dados e os carrega no Amazon S3.
+ MyPigActivity2 carrega a primeira saída, seleciona algumas colunas e três linhas de dados e a carrega no Amazon S3 como uma segunda saída.
+ MyPigActivity3 carrega os segundos dados de saída, insere duas linhas de dados e somente a coluna chamada “quinta” no Amazon RDS.
+ MyPigActivity4 carrega dados do Amazon RDS, seleciona a primeira linha de dados e os carrega no Amazon S3.

```
{
  "objects": [
    {
      "id": "MyInputData1",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "directoryPath": "s3://amzn-s3-demo-bucket/pigTestInput",
      "name": "MyInputData1",
      "dataFormat": {
        "ref": "MyInputDataType1"
      },
      "type": "S3DataNode"
    },
    {
      "id": "MyPigActivity4",
      "scheduleType": "CRON",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "input": {
        "ref": "MyOutputData3"
      },
      "pipelineLogUri": "s3://amzn-s3-demo-bucket/path/",
      "name": "MyPigActivity4",
      "runsOn": {
        "ref": "MyEmrResource"
      },
      "type": "PigActivity",
      "dependsOn": {
        "ref": "MyPigActivity3"
      },
      "output": {
        "ref": "MyOutputData4"
      },
      "script": "B = LIMIT ${input1} 1; ${output1} = FOREACH B GENERATE one;",
      "stage": "true"
    },
    {
      "id": "MyPigActivity3",
      "scheduleType": "CRON",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "input": {
        "ref": "MyOutputData2"
      },
      "pipelineLogUri": "s3://amzn-s3-demo-bucket/path",
      "name": "MyPigActivity3",
      "runsOn": {
        "ref": "MyEmrResource"
      },
      "script": "B = LIMIT ${input1} 2; ${output1} = FOREACH B GENERATE Fifth;",
      "type": "PigActivity",
      "dependsOn": {
        "ref": "MyPigActivity2"
      },
      "output": {
        "ref": "MyOutputData3"
      },
      "stage": "true"
    },
    {
      "id": "MyOutputData2",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "name": "MyOutputData2",
      "directoryPath": "s3://amzn-s3-demo-bucket/PigActivityOutput2",
      "dataFormat": {
        "ref": "MyOutputDataType2"
      },
      "type": "S3DataNode"
    },
    {
      "id": "MyOutputData1",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "name": "MyOutputData1",
      "directoryPath": "s3://amzn-s3-demo-bucket/PigActivityOutput1",
      "dataFormat": {
        "ref": "MyOutputDataType1"
      },
      "type": "S3DataNode"
    },
    {
      "id": "MyInputDataType1",
      "name": "MyInputDataType1",
      "column": [
        "First STRING",
        "Second STRING",
        "Third STRING",
        "Fourth STRING",
        "Fifth STRING",
        "Sixth STRING",
        "Seventh STRING",
        "Eighth STRING",
        "Ninth STRING",
        "Tenth STRING"
      ],
      "inputRegEx": "^(\\\\S+) (\\\\S+) (\\\\S+) (\\\\S+) (\\\\S+) (\\\\S+) (\\\\S+) (\\\\S+) (\\\\S+) (\\\\S+)",
      "type": "RegEx"
    },
    {
      "id": "MyEmrResource",
      "region": "us-east-1",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "keyPair": "example-keypair",
      "masterInstanceType": "m1.small",
      "enableDebugging": "true",
      "name": "MyEmrResource",
      "actionOnTaskFailure": "continue",
      "type": "EmrCluster"
    },
    {
      "id": "MyOutputDataType4",
      "name": "MyOutputDataType4",
      "column": "one STRING",
      "type": "CSV"
    },
    {
      "id": "MyOutputData4",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "directoryPath": "s3://amzn-s3-demo-bucket/PigActivityOutput3",
      "name": "MyOutputData4",
      "dataFormat": {
        "ref": "MyOutputDataType4"
      },
      "type": "S3DataNode"
    },
    {
      "id": "MyOutputDataType1",
      "name": "MyOutputDataType1",
      "column": [
        "First STRING",
        "Second STRING",
        "Third STRING",
        "Fourth STRING",
        "Fifth STRING",
        "Sixth STRING",
        "Seventh STRING",
        "Eighth STRING"
      ],
      "columnSeparator": "*",
      "type": "Custom"
    },
    {
      "id": "MyOutputData3",
      "username": "___",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "insertQuery": "insert into #{table} (one) values (?)",
      "name": "MyOutputData3",
      "*password": "___",
      "runsOn": {
        "ref": "MyEmrResource"
      },
      "connectionString": "jdbc:mysql://example-database-instance:3306/example-database",
      "selectQuery": "select * from #{table}",
      "table": "example-table-name",
      "type": "MySqlDataNode"
    },
    {
      "id": "MyOutputDataType2",
      "name": "MyOutputDataType2",
      "column": [
        "Third STRING",
        "Fourth STRING",
        "Fifth STRING",
        "Sixth STRING",
        "Seventh STRING",
        "Eighth STRING"
      ],
      "type": "TSV"
    },
    {
      "id": "MyPigActivity2",
      "scheduleType": "CRON",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "input": {
        "ref": "MyOutputData1"
      },
      "pipelineLogUri": "s3://amzn-s3-demo-bucket/path",
      "name": "MyPigActivity2",
      "runsOn": {
        "ref": "MyEmrResource"
      },
      "dependsOn": {
        "ref": "MyPigActivity1"
      },
      "type": "PigActivity",
      "script": "B = LIMIT ${input1} 3; ${output1} = FOREACH B GENERATE Third, Fourth, Fifth, Sixth, Seventh, Eighth;",
      "output": {
        "ref": "MyOutputData2"
      },
      "stage": "true"
    },
    {
      "id": "MyEmrResourcePeriod",
      "startDateTime": "2013-05-20T00:00:00",
      "name": "MyEmrResourcePeriod",
      "period": "1 day",
      "type": "Schedule",
      "endDateTime": "2013-05-21T00:00:00"
    },
    {
      "id": "MyPigActivity1",
      "scheduleType": "CRON",
      "schedule": {
        "ref": "MyEmrResourcePeriod"
      },
      "input": {
        "ref": "MyInputData1"
      },
      "pipelineLogUri": "s3://amzn-s3-demo-bucket/path",
      "scriptUri": "s3://amzn-s3-demo-bucket/script/pigTestScipt.q",
      "name": "MyPigActivity1",
      "runsOn": {
        "ref": "MyEmrResource"
      },
      "scriptVariable": [
        "column1=First",
        "column2=Second",
        "three=3"
      ],
      "type": "PigActivity",
      "output": {
        "ref": "MyOutputData1"
      },
      "stage": "true"
    }
  ]
}
```

O conteúdo de `pigTestScript.q` é o seguinte.

```
B = LIMIT ${input1} $three; ${output1} = FOREACH B GENERATE $column1, $column2, Third, Fourth, Fifth, Sixth, Seventh, Eighth;
```

## Sintaxe
<a name="pigactivity-syntax"></a>


****  

| Campos de invocação de objetos | Description | Tipo de slot | 
| --- | --- | --- | 
| agendamento | Esse objeto é invocado durante a execução de um intervalo de programação. Os usuários precisam especificar uma referência de programação para outro objeto de modo a definir a ordem de execução de dependência desse objeto. Os usuários podem satisfazer esse requisito definindo explicitamente uma programação no objeto, por exemplo, especificando “agenda”: \$1"ref”: "DefaultSchedule“\$1. Na maioria dos casos, é melhor colocar a referência de programação no objeto de pipeline padrão para que todos os objetos herdem essa programação. Como alternativa, se o pipeline tiver uma árvore de programações (outras programações dentro de uma programação principal), os usuários poderão criar um objeto principal que tenha uma referência de programação. Para obter mais informações sobre o exemplo de configurações opcionais de programação, consulte [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html). | Objeto de referência, por exemplo, “schedule”: \$1"ref”:” myScheduleId “\$1 | 

 


****  

| Grupo obrigatório (um dos seguintes é obrigatório) | Description | Tipo de slot | 
| --- | --- | --- | 
| script | O script do Pig a ser executado. | String | 
| scriptUri | O local do script do Pig a ser executado (por exemplo, s3://scriptLocation). | String | 

 


****  

| Grupo obrigatório (um dos seguintes é obrigatório) | Description | Tipo de slot | 
| --- | --- | --- | 
| runsOn | Cluster EMR no qual isso PigActivity é executado. | Objeto de referência, por exemplo, “runsOn”: \$1"ref”:” myEmrCluster Id "\$1 | 
| workerGroup | O grupo de operadores. Isso é usado para tarefas de roteamento. Se você fornecer um valor de runsOn e workerGroup existir, será ignorado.workerGroup | String | 

 


****  

| Campos opcionais | Description | Tipo de slot | 
| --- | --- | --- | 
| attemptStatus | O status mais recente da atividade remota. | String | 
| attemptTimeout | O tempo limite para a conclusão do trabalho remoto. Se definida, uma atividade remota não concluída dentro do prazo definido poderá ser executada novamente. | Período | 
| dependsOn | Especifica a dependência em outro objeto executável. | Objeto de referência, por exemplo, “dependsOn”: \$1"ref”:” myActivityId “\$1 | 
| failureAndRerunModo | Descreve o comportamento do nó do consumidor quando as dependências apresentam falhas ou são executadas novamente. | Enumeração | 
| input | A fonte de dados de entrada. | Objeto de referência, por exemplo, “input”: \$1"ref”:” myDataNode Id "\$1 | 
| lateAfterTimeout | O tempo decorrido após o início do pipeline no qual o objeto deve ser concluído. Ele é acionado somente quando o tipo de programação não está definido como ondemand. | Período | 
| maxActiveInstances | O número máximo de instâncias ativas simultâneas de um componente. Novas execuções não contam para o número de instâncias ativas. | Inteiro | 
| maximumRetries | A quantidade máxima de novas tentativas após uma falha. | Inteiro | 
| onFail | Uma ação a ser executada quando há falha no objeto atual. | Objeto de referência, por exemplo, “onFail”: \$1"ref”:” myActionId “\$1 | 
| onLateAction | Ações que devem ser acionadas se um objeto ainda não foi agendado ou não foi concluído. | Objeto de referência, por exemplo, "onLateAction“: \$1" ref”:” myActionId “\$1 | 
| onSuccess | Uma ação a ser executada quando o objeto atual é executado com êxito. | Objeto de referência, por exemplo, “onSuccess”: \$1"ref”:” myActionId “\$1 | 
| saída | A fonte de dados de saída. | Objeto de referência, por exemplo, “output”: \$1"ref”:” myDataNode Id "\$1 | 
| parent | Pai do objeto atual a partir do qual os slots serão herdados. | Objeto de referência, por exemplo, “parent”: \$1"ref”:” myBaseObject Id "\$1 | 
| pipelineLogUri | O URI do Amazon S3 (como 's3://BucketName/Key/ ') para carregar registros para o pipeline. | String | 
| postActivityTaskConfig | Script de configuração pós-atividade a ser executado. Consiste em um URI do script de shell no Amazon S33 e uma lista de argumentos. | Objeto de referência, por exemplo, "postActivityTaskConfig”: \$1"ref”:” myShellScript ConfigId “\$1 | 
| preActivityTaskConfig | Script de configuração pré-atividade a ser executado. Consiste em um URI do script de shell no Amazon S3 e uma lista de argumentos. | Objeto de referência, por exemplo, "preActivityTaskConfig”: \$1"ref”:” myShellScript ConfigId “\$1 | 
| precondition | Se desejar, você pode definir uma precondição. Um nó de dados não fica marcado como "READY" até que todas as precondições tenham sido atendidas. | Objeto de referência, por exemplo, “pré-condição”: \$1"ref”:” myPreconditionId “\$1 | 
| reportProgressTimeout | O tempo limite para as chamadas sucessivas de trabalho remoto para reportProgress. Se definidas, as atividades remotas sem progresso para o período especificado podem ser consideradas como interrompidas e executadas novamente. | Período | 
| resizeClusterBeforeCorrendo | Redimensione o cluster antes de executar esta atividade para acomodar nós de dados do DynamoDB especificados como entradas ou saídas. Se sua atividade usa a `DynamoDBDataNode` como um nó de dados de entrada ou saída, e se você definir o como`TRUE`, AWS Data Pipeline comece `resizeClusterBeforeRunning` a usar tipos de `m3.xlarge` instância. Isso substitui suas escolhas de tipo de instância por `m3.xlarge`, o que pode aumentar seus custos mensais.  | Booleano | 
| resizeClusterMaxInstâncias | Um limite no número máximo de instâncias que pode ser solicitado pelo algoritmo de redimensionamento. | Inteiro | 
| retryDelay | A duração do tempo limite entre duas novas tentativas. | Período | 
| scheduleType | O tipo de programação permite que você especifique se os objetos na sua definição de pipeline devem ser programados no início ou no final do intervalo. Programação com estilo de séries temporais significa que as instâncias são programadas no final de cada intervalo, e Programação com estilo Cron significa que as instâncias são programadas no início de cada intervalo. Uma programação sob demanda permite que você execute um pipeline uma vez por ativação. Isso significa que você não precisa clonar nem recriar o pipeline para executá-lo novamente. Se você usar uma programação sob demanda, ela precisará ser especificada no objeto padrão, além de ser a única scheduleType especificada para objetos no pipeline. Para usar pipelines sob demanda, basta chamar a ActivatePipeline operação para cada execução subsequente. Os valores são: cron, ondemand e timeseries. | Enumeração | 
| scriptVariable | Os argumentos a serem transmitidos para o script do Pig. Você pode usar scriptVariable com script ou scriptUri. | String | 
| stage | Determina se a preparação está ativada e permite que seu script Pig tenha acesso às tabelas de dados preparados, como \$1 \$1INPUT1\$1 e \$1 \$1\$1. OUTPUT1 | Booleano | 

 


****  

| Campos de tempo de execução | Description | Tipo de slot | 
| --- | --- | --- | 
| @activeInstances | Lista dos objetos da instância ativa agendados no momento. | Objeto de referência, por exemplo, “ActiveInstances”: \$1"ref”:” myRunnableObject Id "\$1 | 
| @actualEndTime | Hora em que a execução deste objeto foi concluída. | DateTime | 
| @actualStartTime | Hora em que a execução deste objeto foi iniciada. | DateTime | 
| cancellationReason | O motivo do cancelamento, se esse objeto foi cancelado. | String | 
| @cascadeFailedOn | Descrição da cadeia de dependência na qual o objeto apresentou falha. | Objeto de referência, por exemplo, "cascadeFailedOn“: \$1" ref”:” myRunnableObject Id "\$1 | 
| emrStepLog | Registros da etapa do Amazon EMR disponíveis somente nas tentativas de atividade do EMR. | String | 
| errorId | O ID do erro se esse objeto apresentou falha. | String | 
| errorMessage | A mensagem de erro se esse objeto apresentou falha. | String | 
| errorStackTrace | O rastreamento de pilha com erro se esse objeto apresentou falha. | String | 
| @finishedTime | A hora em que esse objeto terminou a execução. | DateTime | 
| hadoopJobLog | Registos de trabalho do Hadoop disponíveis nas tentativas de atividades baseadas em EMR. | String | 
| @healthStatus | O status de integridade do objeto que indica se houve sucesso ou falha na última instância concluída do objeto. | String | 
| @healthStatusFromInstanceId | ID do último objeto da instância concluído. | String | 
| @ healthStatusUpdated Hora | Hora em que o status de integridade foi atualizado pela última vez. | DateTime | 
| hostname | O nome do host do cliente que capturou a tentativa da tarefa. | String | 
| @lastDeactivatedTime | A hora em que esse objeto foi desativado pela última vez. | DateTime | 
| @ latestCompletedRun Hora | Hora da última execução concluída. | DateTime | 
| @latestRunTime | Hora da última execução programada. | DateTime | 
| @nextRunTime | Hora da próxima execução a ser programada. | DateTime | 
| reportProgressTime | A última vez que a atividade remota relatou progresso. | DateTime | 
| @scheduledEndTime | Horário de término programado para o objeto. | DateTime | 
| @scheduledStartTime | Horário de início programado para o objeto. | DateTime | 
| @status | O status deste objeto. | String | 
| @version | A versão do pipeline com que o objeto foi criado. | String | 
| @waitingOn | Descrição da lista de dependências em que este objeto está aguardando. | Objeto de referência, por exemplo, “waitingOn”: \$1"ref”:” myRunnableObject Id "\$1 | 

 


****  

| Campos do sistema | Description | Tipo de slot | 
| --- | --- | --- | 
| @error | Erro ao descrever o objeto malformado. | String | 
| @pipelineId | ID do pipeline ao qual este objeto pertence. | String | 
| @sphere | A esfera de um objeto denota seu lugar no ciclo de vida: os objetos componentes dão origem aos objetos de instância que executam os objetos de tentativa. | String | 

## Consulte também
<a name="pigactivity-seealso"></a>
+ [ShellCommandActivity](dp-object-shellcommandactivity.md)
+ [EmrActivity](dp-object-emractivity.md)

# RedshiftCopyActivity
<a name="dp-object-redshiftcopyactivity"></a>

Copia uma tabela do DynamoDB ou Amazon S3 para o Amazon Redshift. Você pode carregar dados em uma nova tabela ou mesclar dados em uma tabela existente de maneira fácil.

Esta é uma visão geral de um caso de uso no qual usar `RedshiftCopyActivity`:

1. Comece usando AWS Data Pipeline para armazenar seus dados no Amazon S3. 

1. Use o `RedshiftCopyActivity` para mover os dados do Amazon RDS e do Amazon EMR para o Amazon Redshift.

   Isso permite que você carregue seus dados no Amazon Redshift, onde pode analisá-los.

1. Use o [SqlActivity](dp-object-sqlactivity.md) para realizar consultas SQL nos dados que você carregou no Amazon Redshift.

 Além disso, `RedshiftCopyActivity` permite que você trabalhe com um `S3DataNode`, já que ele oferece suporte a um arquivo manifesto. Para obter mais informações, consulte [S3 DataNode](dp-object-s3datanode.md).

## Exemplo
<a name="redshiftcopyactivity-example"></a>

Veja a seguir um exemplo deste tipo de objeto. 

Para garantir a conversão de formatos, este exemplo usa os parâmetros de conversão especiais [EMPTYASNULL](https://docs.aws.amazon.com/redshift/latest/dg/copy-parameters-data-conversion.html#copy-emptyasnull) e [IGNOREBLANKLINES](https://docs.aws.amazon.com/redshift/latest/dg/copy-parameters-data-conversion.html#copy-ignoreblanklines) em `commandOptions`. Para obter informações, consulte [Parâmetros de conversão de dados](https://docs.aws.amazon.com/redshift/latest/dg/copy-parameters-data-conversion.html) no *Guia do desenvolvedor de banco de dados do Amazon Redshift*.

```
{
  "id" : "S3ToRedshiftCopyActivity",
  "type" : "RedshiftCopyActivity",
  "input" : { "ref": "MyS3DataNode" },
  "output" : { "ref": "MyRedshiftDataNode" },
  "insertMode" : "KEEP_EXISTING",
  "schedule" : { "ref": "Hour" },
  "runsOn" : { "ref": "MyEc2Resource" },
  "commandOptions": ["EMPTYASNULL", "IGNOREBLANKLINES"]
}
```

A definição de pipeline de exemplo a seguir mostra uma atividade que usa o modo de inserção `APPEND`:

```
{
  "objects": [
    {
      "id": "CSVId1",
      "name": "DefaultCSV1",
      "type": "CSV"
    },
    {
      "id": "RedshiftDatabaseId1",
      "databaseName": "dbname",
      "username": "user",
      "name": "DefaultRedshiftDatabase1",
      "*password": "password",
      "type": "RedshiftDatabase",
      "clusterId": "redshiftclusterId"
    },
    {
      "id": "Default",
      "scheduleType": "timeseries",
      "failureAndRerunMode": "CASCADE",
      "name": "Default",
      "role": "DataPipelineDefaultRole",
      "resourceRole": "DataPipelineDefaultResourceRole"
    },
    {
      "id": "RedshiftDataNodeId1",
      "schedule": {
        "ref": "ScheduleId1"
      },
      "tableName": "orders",
      "name": "DefaultRedshiftDataNode1",
      "createTableSql": "create table StructuredLogs (requestBeginTime CHAR(30) PRIMARY KEY DISTKEY SORTKEY, requestEndTime CHAR(30), hostname CHAR(100), requestDate varchar(20));",
      "type": "RedshiftDataNode",
      "database": {
        "ref": "RedshiftDatabaseId1"
      }
    },
    {
      "id": "Ec2ResourceId1",
      "schedule": {
        "ref": "ScheduleId1"
      },
      "securityGroups": "MySecurityGroup",
      "name": "DefaultEc2Resource1",
      "role": "DataPipelineDefaultRole",
      "logUri": "s3://myLogs",
      "resourceRole": "DataPipelineDefaultResourceRole",
      "type": "Ec2Resource"
    },
    {
      "id": "ScheduleId1",
      "startDateTime": "yyyy-mm-ddT00:00:00",
      "name": "DefaultSchedule1",
      "type": "Schedule",
      "period": "period",
      "endDateTime": "yyyy-mm-ddT00:00:00"
    },
    {
      "id": "S3DataNodeId1",
      "schedule": {
        "ref": "ScheduleId1"
      },
      "filePath": "s3://datapipeline-us-east-1/samples/hive-ads-samples.csv",
      "name": "DefaultS3DataNode1",
      "dataFormat": {
        "ref": "CSVId1"
      },
      "type": "S3DataNode"
    },
    {
      "id": "RedshiftCopyActivityId1",
      "input": {
        "ref": "S3DataNodeId1"
      },
      "schedule": {
        "ref": "ScheduleId1"
      },
      "insertMode": "APPEND",
      "name": "DefaultRedshiftCopyActivity1",
      "runsOn": {
        "ref": "Ec2ResourceId1"
      },
      "type": "RedshiftCopyActivity",
      "output": {
        "ref": "RedshiftDataNodeId1"
      }
    }
  ]
}
```

`APPEND` A operação adiciona itens a uma tabela, independentemente das chaves principais ou de classificação. Por exemplo, se você tiver a tabela a seguir, poderá anexar um registro com o mesmo ID e o valor de usuário.

```
ID(PK)     USER
1          aaa
2          bbb
```

Você pode anexar um registro com o mesmo ID e valor de usuário:

```
ID(PK)     USER
1          aaa
2          bbb
1          aaa
```

**nota**  
Se uma operação `APPEND` é interrompida e realizada novamente, a nova execução resultante do pipeline pode acrescentar linhas desde o início. Isso pode causar uma duplicação. Por isso, você deve estar ciente desse comportamento, especialmente se houver alguma lógica que conta o número de linhas.

Para ver um tutorial, consulte [Copiar dados para o Amazon Redshift usando AWS Data Pipeline](dp-copydata-redshift.md).

## Sintaxe
<a name="redshiftcopyactivity-syntax"></a>


****  

| Campos obrigatórios | Description | Tipo de slot | 
| --- | --- | --- | 
| insertMode |   Determina o que AWS Data Pipeline acontece com os dados preexistentes na tabela de destino que se sobrepõem às linhas nos dados a serem carregados. Os valores válidos são: `KEEP_EXISTING`, `OVERWRITE_EXISTING`, `TRUNCATE` e `APPEND`. `KEEP_EXISTING` adiciona novas linhas à tabela deixando quaisquer linhas existentes sem modificações. `KEEP_EXISTING` e` OVERWRITE_EXISTING` usam as chaves primária, de classificação e de distribuição para identificar quais linhas de entrada correspondem a linhas existentes. Consulte [Atualizar e inserir novos dados](https://docs.aws.amazon.com/redshift/latest/dg/t_updating-inserting-using-staging-tables-.html) no *Guia do desenvolvedor de banco de dados* do Amazon Redshift.  `TRUNCATE` exclui todos os dados na tabela de destino antes de gravar os novos dados.  `APPEND` adiciona todos os registros ao final da tabela do Redshift. `APPEND` não requer uma chave de distribuição primária ou uma chave de classificação de modo que itens que podem ser possíveis duplicatas podem ser anexados.  | Enumeração | 

 


****  

| Campos de invocação de objetos | Description | Tipo de slot | 
| --- | --- | --- | 
| agendamento |  Esse objeto é invocado durante a execução de um intervalo de programação.  Especifique uma referência de programação para outro objeto para definir a ordem de execução de dependência desse objeto.  Na maioria dos casos, recomendamos colocar a referência de programação no objeto de pipeline padrão para que todos os objetos herdem essa programação. Por exemplo, você pode definir uma programação explicitamente no objeto especificando `"schedule": {"ref": "DefaultSchedule"}`.  Se a programação principal do seu pipeline contiver programações aninhadas, crie um objeto pai que tenha uma referência de programação.  Para obter mais informações sobre configurações opcionais de programação de exemplo, consulte [Programação](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html).   | Objeto de referência, como: "schedule":\$1"ref":"myScheduleId"\$1 | 

 


****  

| Grupo obrigatório (um dos seguintes é obrigatório) | Description | Tipo de slot | 
| --- | --- | --- | 
| runsOn | O recurso computacional para executar a atividade ou o comando. Por exemplo, uma instância do Amazon EC2 ou um cluster do Amazon EMR. | Objeto de referência, por exemplo, “runsOn”: \$1"ref”:” myResourceId “\$1 | 
| workerGroup | O grupo de operadores. Isso é usado para tarefas de roteamento. Se você fornecer um valor de runsOn e workerGroup existir, workerGroup será ignorado. | String | 

 


****  

| Campos opcionais | Description | Tipo de slot | 
| --- | --- | --- | 
| attemptStatus | Status mais recente da atividade remota. | String | 
| attemptTimeout | Tempo limite para conclusão do trabalho remoto. Se definida, uma atividade remota não concluída dentro do prazo definido poderá ser executada novamente. | Período | 
| commandOptions |  Pega parâmetros para passar para o nó de dados do Amazon Redshift durante a operação `COPY`. Para obter mais informações sobre parâmetros, consulte [COPIAR](https://docs.aws.amazon.com/redshift/latest/dg/r_COPY.html) no *Guia do desenvolvedor de banco de dados* do Amazon Redshift. À medida que carrega a tabela, `COPY` tenta converter implicitamente as strings no tipo de dados da coluna de destino. Além das conversões de dados padrão que são realizadas automaticamente, se você receber erros ou tiver outras necessidades de conversão, especifique parâmetros de conversão adicionais. Para obter informações, consulte [Parâmetros de conversão de dados](https://docs.aws.amazon.com/redshift/latest/dg/copy-parameters-data-conversion.html) no *Guia do desenvolvedor de banco de dados* do Amazon Redshift. Se um formato de dados é associado ao nó de dados de entrada ou saída, os parâmetros fornecidos são ignorados.  Como a operação de cópia usa `COPY` para inserir dados em uma tabela de preparação e, em seguida, usa um comando `INSERT` para copiar os dados da tabela de preparação para a tabela de destino, alguns parâmetros `COPY` não se aplicam, como a capacidade do comando `COPY` para permitir a compactação automática da tabela. Se a compactação for necessária, adicione detalhes de codificação de coluna na instrução `CREATE TABLE`.  Além disso, em alguns casos, quando é preciso descarregar os dados do cluster do Amazon Redshift e criar arquivos no Amazon S3, a `RedshiftCopyActivity` depende da operação `UNLOAD` do Amazon Redshift. Para melhorar o desempenho ao copiar e descarregar, especifique o parâmetro `PARALLEL OFF` do comando `UNLOAD`. Para obter informações sobre parâmetros, consulte [DESCARREGAR](https://docs.aws.amazon.com/redshift/latest/dg/r_UNLOAD.html) no *Guia do desenvolvedor de banco de dados* do Amazon Redshift.  | String | 
| dependsOn | Especifique a dependência em outro objeto executável. | Objeto de referência: "dependsOn":\$1"ref":"myActivityId"\$1 | 
| failureAndRerunModo | Descreve o comportamento do nó do consumidor quando as dependências apresentam falhas ou são executadas novamente. | Enumeração | 
| input | O nó de dados de entrada. A fonte de dados pode ser o Amazon S3, o DynamoDB ou o Amazon Redshift. | Objeto de referência: "input":\$1"ref":"myDataNodeId"\$1 | 
| lateAfterTimeout | O tempo decorrido após o início do pipeline no qual o objeto deve ser concluído. Ele é acionado somente quando o tipo de programação não está definido como ondemand. | Período | 
| maxActiveInstances | O número máximo de instâncias ativas simultâneas de um componente. Novas execuções não contam para o número de instâncias ativas. | Inteiro | 
| maximumRetries | Quantidade máxima de novas tentativas com falha. | Inteiro | 
| onFail | Uma ação a ser executada quando há falha no objeto atual. | Objeto de referência: "onFail":\$1"ref":"myActionId"\$1 | 
| onLateAction | Ações que devem ser acionadas se um objeto ainda não foi agendado ou não foi concluído. | Objeto de referência:  "onLateAction":\$1"ref":"myActionId"\$1 | 
| onSuccess | Uma ação a ser executada quando o objeto atual é executado com êxito. | Objeto de referência: "onSuccess":\$1"ref":"myActionId"\$1 | 
| saída | O nó de dados de saída. A localização de saída pode ser o Amazon S3 ou o Amazon Redshift. | Objeto de referência: "output":\$1"ref":"myDataNodeId"\$1 | 
| parent | Pai do objeto atual a partir do qual os slots serão herdados. | Objeto de referência: "parent":\$1"ref":"myBaseObjectId"\$1 | 
| pipelineLogUri | O URI do S3 (como 's3://BucketName/Key/ ') para carregar registros para o pipeline. | String | 
| precondition | Se desejar, você pode definir uma precondição. Um nó de dados não fica marcado como "READY" até que todas as precondições tenham sido atendidas. | Objeto de referência: "precondition":\$1"ref":"myPreconditionId"\$1 | 
| queue (fila) |  Corresponde à configuração `query_group ` no Amazon Redshift, que permite atribuir e priorizar atividades simultâneas com base em sua colocação em filas.  O Amazon Redshift limita o número de conexões simultâneas a 15. Para obter mais informações, consulte [Atribuir consultas a filas](https://docs.aws.amazon.com/AmazonRDS/latest/DeveloperGuide/cm-c-executing-queries.html) no *Guia do desenvolvedor de banco de dados* do Amazon RDS.  | String | 
| reportProgressTimeout |  Tempo limite para as chamadas sucessivas de trabalho remoto para `reportProgress`.  Se definidas, as atividades remotas sem progresso para o período especificado podem ser consideradas como interrompidas e executadas novamente.  | Período | 
| retryDelay | A duração do tempo limite entre duas novas tentativas. | Período | 
| scheduleType |  Permite que você especifique a programação para objetos no pipeline. Os valores são: `cron`, `ondemand` e `timeseries`. A programação `timeseries` significa que as instâncias são programadas no final de cada intervalo. A programação `Cron` significa que as instâncias são programadas no início de cada intervalo.  Uma programação `ondemand` permite que você execute um pipeline uma vez por ativação. Isso significa que você não precisa clonar nem recriar o pipeline para executá-lo novamente.  Para usar pipelines `ondemand`, chame a operação `ActivatePipeline` para cada execução subsequente.  Se você usar uma programação `ondemand`, deverá especificá-la no objeto padrão, e este deverá ser o único `scheduleType` especificado para objetos no pipeline.  | Enumeração | 
| transformSql |  A expressão `SQL SELECT` usada para transformar os dados de entrada.  Execute a expressão `transformSql` na tabela chamada `staging`.  Ao copiar dados do DynamoDB ou do Amazon S3, o AWS Data Pipeline cria uma tabela chamada “staging” e, inicialmente, carrega dados nesta tabela. Os dados dessa tabela são usados para atualizar a tabela de destino.  O esquema de saída de `transformSql` deve corresponder ao esquema da tabela de destinos finais. Se você especificar a opção `transformSql`, uma segunda tabela de preparação será criada a partir da instrução SQL especificada. Os dados na segunda tabela de preparação são, então, atualizados na tabela de destino final.  | String | 

 


****  

| Campos de tempo de execução | Description | Tipo de slot | 
| --- | --- | --- | 
| @activeInstances | Lista dos objetos da instância ativa agendados no momento. | Objeto de referência: "activeInstances":\$1"ref":"myRunnableObjectId"\$1 | 
| @actualEndTime | Hora em que a execução deste objeto foi concluída. | DateTime | 
| @actualStartTime | Hora em que a execução deste objeto foi iniciada. | DateTime | 
| cancellationReason | O motivo do cancelamento, se esse objeto foi cancelado. | String | 
| @cascadeFailedOn | Descrição da cadeia de dependência na qual o objeto apresentou falha. | Objeto de referência: "cascadeFailedOn":\$1"ref":"myRunnableObjectId"\$1 | 
| emrStepLog | Registros da etapa do EMR disponíveis somente nas tentativas de atividade do EMR. | String | 
| errorId | O ID do erro se esse objeto apresentou falha. | String | 
| errorMessage | A mensagem de erro se esse objeto apresentou falha. | String | 
| errorStackTrace | O rastreamento de pilha com erro se esse objeto apresentou falha. | String | 
| @finishedTime | A hora em que esse objeto terminou a execução. | DateTime | 
| hadoopJobLog | Registos de trabalho do Hadoop disponíveis nas tentativas de atividades baseadas em EMR. | String | 
| @healthStatus | O status de integridade do objeto que indica se houve sucesso ou falha na última instância concluída do objeto. | String | 
| @healthStatusFromInstanceId | ID do último objeto da instância concluído. | String | 
| @ healthStatusUpdated Hora | Hora em que o status de integridade foi atualizado pela última vez. | DateTime | 
| hostname | O nome do host do cliente que capturou a tentativa da tarefa. | String | 
| @lastDeactivatedTime | A hora em que esse objeto foi desativado pela última vez. | DateTime | 
| @ latestCompletedRun Hora | Hora da última execução concluída. | DateTime | 
| @latestRunTime | Hora da última execução programada. | DateTime | 
| @nextRunTime | Hora da próxima execução a ser programada. | DateTime | 
| reportProgressTime | A última vez que a atividade remota relatou progresso. | DateTime | 
| @scheduledEndTime | Horário de término da programação para o objeto. | DateTime | 
| @scheduledStartTime | Horário de início da programação para o objeto. | DateTime | 
| @status | O status deste objeto. | String | 
| @version | A versão do pipeline com que o objeto foi criado. | String | 
| @waitingOn | Descrição da lista de dependências em que este objeto está aguardando. | Objeto de referência: "waitingOn":\$1"ref":"myRunnableObjectId"\$1 | 

 


****  

| Campos do sistema | Description | Tipo de slot | 
| --- | --- | --- | 
| @error | Erro ao descrever o objeto malformado. | String | 
| @pipelineId | ID do pipeline ao qual este objeto pertence. | String | 
| @sphere | A esfera de um objeto. Denota seu lugar no ciclo de vida. Por exemplo, objetos de componentes dão origem a objetos de instância, que executam objetos de tentativa. | String | 

# ShellCommandActivity
<a name="dp-object-shellcommandactivity"></a>

 Executa um comando ou script. Você pode usar `ShellCommandActivity` para executar séries temporais ou tarefas programadas parecidas com Cron. 

Quando o campo `stage` é definido como verdadeiro e usado com um `S3DataNode`, o `ShellCommandActivity` oferece suporte ao conceito de preparação de dados, o que significa que você pode mover dados do Amazon S3 para um local de estágio, como o Amazon EC2 ou seu ambiente local, executar trabalhos nos dados usando scripts e o `ShellCommandActivity`, e movê-los de volta para o Amazon S3. 

Nesse caso, quando o comando shell está conectado a uma entrada `S3DataNode`, os scripts shell operam diretamente nos dados usando `${INPUT1_STAGING_DIR}`, `${INPUT2_STAGING_DIR}` e outros campos, referindo aos campos de entrada `ShellCommandActivity`. 

Da mesma forma, a saída do comando de shell pode ser preparada em um diretório de saída para ser automaticamente enviada ao Amazon S3, referenciada por `${OUTPUT1_STAGING_DIR}`, `${OUTPUT2_STAGING_DIR}` e assim por diante. 

Essas expressões podem passar como argumentos de linha de comando para o comando de shell para que você possa usá-las na lógica de transformação de dados.

`ShellCommandActivity` retorna códigos de erro e strings no estilo do Linux. Se `ShellCommandActivity` resulta em um erro, o `error` retornado é um valor diferente de zero.

## Exemplo
<a name="shellcommandactivity-example"></a>

Veja a seguir um exemplo deste tipo de objeto.

```
{
  "id" : "CreateDirectory",
  "type" : "ShellCommandActivity",
  "command" : "mkdir new-directory"
}
```

## Sintaxe
<a name="shellcommandactivity-syntax"></a>


****  

| Campos de invocação de objetos | Description | Tipo de slot | 
| --- | --- | --- | 
| agendamento |  Esse objeto é invocado durante a execução de um intervalo `schedule`. Para definir a ordem de execução de dependência desse objeto, especifique uma referência `schedule` a outro objeto.  Para atender a esse requisito, defina explicitamente um `schedule` no objeto, por exemplo, especificando `"schedule": {"ref": "DefaultSchedule"}`.  Na maioria dos casos, é melhor colocar a referência `schedule` no objeto de pipeline padrão para que todos os objetos herdem essa programação. Se o pipeline consiste em uma árvore de programações (programações aninhadas na programação principal), crie um objeto pai que tenha uma referência de programação.  Para distribuir a carga, AWS Data Pipeline cria objetos físicos um pouco antes do previsto, mas os executa dentro do cronograma.  Para obter mais informações sobre o exemplo de configurações opcionais de programação, consulte [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html).  | Objeto de referência, por exemplo, “agenda”: \$1"ref”:” myScheduleId “\$1 | 

 


****  

| Grupo obrigatório (um dos seguintes é obrigatório) | Description | Tipo de slot | 
| --- | --- | --- | 
| command | O comando a ser executado. Use \$1 para fazer referência aos parâmetros posicionais e scriptArgument para especificar os parâmetros para o comando. Este valor e quaisquer parâmetros associados precisam funcionar no ambiente do qual você está executando o Task Runner. | String | 
| scriptUri | Um caminho de URI do Amazon S3 para um arquivo do qual você fará download e executará como um comando shell. Especifique somente um campo scriptUri ou command. scriptUri não pode usar parâmetros, portanto, em vez disso, use command. | String | 

 


****  

| Grupo obrigatório (um dos seguintes é obrigatório) | Description | Tipo de slot | 
| --- | --- | --- | 
| runsOn | O recurso computacional para executar a atividade ou o comando, por exemplo, uma instância do Amazon EC2; ou um cluster do Amazon EMR. | Objeto de referência, por exemplo, “runsOn”: \$1"ref”:” myResourceId “\$1 | 
| workerGroup | Usado para tarefas de roteamento. Se você fornecer um valor de runsOn e workerGroup existir, será ignorado.workerGroup | String | 

 


****  

| Campos opcionais | Description | Tipo de slot | 
| --- | --- | --- | 
| attemptStatus | O status mais recente da atividade remota. | String | 
| attemptTimeout | O tempo limite para conclusão do trabalho remoto. Se definido, uma atividade remota não concluída dentro do prazo definido poderá ser executada novamente. | Período | 
| dependsOn | Especifica uma dependência em outro objeto executável. | Objeto de referência, por exemplo, “dependsOn”: \$1"ref”:” myActivityId “\$1 | 
| failureAndRerunModo | Descreve o comportamento do nó do consumidor quando as dependências apresentam falhas ou são executadas novamente. | Enumeração | 
| input | O local dos dados de entrada. | Objeto de referência, por exemplo, “input”: \$1"ref”:” myDataNode Id "\$1 | 
| lateAfterTimeout | O tempo decorrido após o início do pipeline no qual o objeto deve ser concluído. Ele é acionado somente quando o tipo de programação não está definido como ondemand. | Período | 
| maxActiveInstances | O número máximo de instâncias ativas simultâneas de um componente. Novas execuções não contam para o número de instâncias ativas. | Inteiro | 
| maximumRetries | A quantidade máxima de novas tentativas após uma falha. | Inteiro | 
| onFail | Uma ação a ser executada quando há falha no objeto atual. | Objeto de referência, por exemplo, “onFail”: \$1"ref”:” myActionId “\$1 | 
| onLateAction | Ações que devem ser acionadas se um objeto ainda não foi programado ou não foi concluído. | Objeto de referência, por exemplo, "onLateAction“: \$1" ref”:” myActionId “\$1 | 
| onSuccess | Uma ação a ser executada quando o objeto atual é executado com êxito. | Objeto de referência, por exemplo, “onSuccess”: \$1"ref”:” myActionId “\$1 | 
| saída | O local dos dados de saída. | Objeto de referência, por exemplo, “output”: \$1"ref”:” myDataNode Id "\$1 | 
| parent | O pai do objeto atual do qual os slots serão herdados. | Objeto de referência, por exemplo, “parent”: \$1"ref”:” myBaseObject Id "\$1 | 
| pipelineLogUri | O URI do Amazon S3, como 's3://BucketName/Key/', para fazer upload de logs para o pipeline. | String | 
| precondition | Opcionalmente define uma precondição. Um nó de dados não fica marcado como "READY" até que todas as precondições tenham sido atendidas. | Objeto de referência, por exemplo, “pré-condição”: \$1"ref”:” myPreconditionId “\$1 | 
| reportProgressTimeout | O tempo limite para chamadas sucessivas para reportProgress por atividades remotas. Se configurada, as atividades remotas sem progresso para o período especificado poderão ser consideradas como interrompidas e serão executadas novamente. | Período | 
| retryDelay | A duração do tempo limite entre duas novas tentativas. | Período | 
| scheduleType |  Permite que você especifique se os objetos na definição do pipeline devem ser programados no início ou no final do intervalo.  Os valores possíveis são: `cron`, `ondemand` e `timeseries`. Se definido como `timeseries`, as instâncias são programadas no final de cada intervalo.  Se definido como `Cron`, as instâncias são programadas no início de cada intervalo.  Se definido como `ondemand`, você pode executar um pipeline uma vez por ativação. Isso significa que você não precisa clonar nem recriar o pipeline para executá-lo novamente. Se você usar uma programação `ondemand`, deverá especificá-la no objeto padrão como o único `scheduleType` para objetos no pipeline. Para usar pipelines `ondemand`, chame a operação `ActivatePipeline` para cada execução subsequente.   | Enumeração | 
| scriptArgument | Um conjunto de strings em formato JSON para ser passado ao comando especificado pelo comando. Por exemplo, se o comando for echo \$11 \$12, especifique scriptArgument como "param1", "param2". Para vários argumentos e parâmetros, passe o scriptArgument da seguinte forma: "scriptArgument":"arg1","scriptArgument":"param1","scriptArgument":"arg2","scriptArgument":"param2". O scriptArgument só pode ser usado com command. Usá-lo com scriptUri causa um erro. | String | 
| stage | Determina se a preparação está ou não ativada e permite que os comandos shell tenham acesso às variáveis de dados preparados, como \$1\$1INPUT1\$1STAGING\$1DIR\$1 e  \$1\$1OUTPUT1\$1STAGING\$1DIR\$1. | Booleano | 
| stderr | O caminho do que recebe mensagens de erro do sistema redirecionadas do comando. Se você usar o campo runsOn, ele precisará ser um caminho do Amazon S3 devido à natureza transitória do recurso que está executando sua atividade. No entanto, se você especificar o campo workerGroup, poderá usar um caminho de arquivo local. | String | 
| stdout | O caminho do Amazon S3 que recebe saídas redirecionadas do comando. Se você usar o campo runsOn, ele precisará ser um caminho do Amazon S3 devido à natureza transitória do recurso que está executando sua atividade. No entanto, se você especificar o campo workerGroup, poderá usar um caminho de arquivo local. | String | 

 


****  

| Campos de tempo de execução | Description | Tipo de slot | 
| --- | --- | --- | 
| @activeInstances | A lista dos objetos da instância ativa programados no momento. | Objeto de referência, por exemplo, “ActiveInstances”: \$1"ref”:” myRunnableObject Id "\$1 | 
| @actualEndTime | O horário em que a execução desse objeto foi concluída. | DateTime | 
| @actualStartTime | O horário em que a execução desse objeto foi iniciada. | DateTime | 
| cancellationReason | O cancellationReason se esse objeto foi cancelado. | String | 
| @cascadeFailedOn | A descrição da cadeia de dependências que causou a falha no objeto. | Objeto de referência, por exemplo, "cascadeFailedOn“: \$1" ref”:” myRunnableObject Id "\$1 | 
| emrStepLog | Registros da etapa do Amazon EMR disponíveis somente nas tentativas de atividade do Amazon EMR. | String | 
| errorId | O errorId se esse objeto apresentou falha. | String | 
| errorMessage | O errorMessage se esse objeto apresentou falha. | String | 
| errorStackTrace | O rastreamento de pilha com erro se esse objeto apresentou falha. | String | 
| @finishedTime | O horário em que a execução do objeto foi concluída. | DateTime | 
| hadoopJobLog | Registos de trabalho do Hadoop disponíveis nas tentativas de atividades baseadas no Amazon EMR. | String | 
| @healthStatus | O status de integridade do objeto que indica se houve sucesso ou falha na última instância concluída do objeto. | String | 
| @healthStatusFromInstanceId | O ID do último objeto de instância que entrou em um estado concluído. | String | 
| @ healthStatusUpdated Hora | O horário em que o status de integridade foi atualizado pela última vez. | DateTime | 
| hostname | O nome de host do cliente que pegou a tentativa da tarefa. | String | 
| @lastDeactivatedTime | A hora em que esse objeto foi desativado pela última vez. | DateTime | 
| @ latestCompletedRun Hora | O horário da última execução concluída. | DateTime | 
| @latestRunTime | O horário da última execução programada. | DateTime | 
| @nextRunTime | O horário da próxima execução a ser programada. | DateTime | 
| reportProgressTime | A última vez em que a atividade remota relatou progresso. | DateTime | 
| @scheduledEndTime | O horário de término programado para o objeto. | DateTime | 
| @scheduledStartTime | O horário de início programado para o objeto. | DateTime | 
| @status | O status do objeto. | String | 
| @version | A AWS Data Pipeline versão usada para criar o objeto. | String | 
| @waitingOn | A descrição da lista de dependências pelas quais esse objeto está aguardando. | Objeto de referência, por exemplo, “waitingOn”: \$1"ref”:” myRunnableObject Id "\$1 | 

 


****  

| Campos do sistema | Description | Tipo de slot | 
| --- | --- | --- | 
| @error | O erro ao descrever o objeto malformado. | String | 
| @pipelineId | O ID do pipeline ao qual esse objeto pertence. | String | 
| @sphere | O local de um objeto no ciclo de vida. Objetos de componentes dão origem a objetos de instância, que executam objetos de tentativa. | String | 

## Consulte também
<a name="shellcommandactivity-seealso"></a>
+ [CopyActivity](dp-object-copyactivity.md)
+ [EmrActivity](dp-object-emractivity.md)

# SqlActivity
<a name="dp-object-sqlactivity"></a>

Executa uma consulta SQL (script) em um banco de dados.

## Exemplo
<a name="sqlactivity-example"></a>

Veja a seguir um exemplo deste tipo de objeto.

```
{
  "id" : "MySqlActivity",
  "type" : "SqlActivity",
  "database" : { "ref": "MyDatabaseID" },
  "script" : "SQLQuery" | "scriptUri" : s3://scriptBucket/query.sql,
  "schedule" : { "ref": "MyScheduleID" },
}
```

## Sintaxe
<a name="sqlactivity-syntax"></a>


****  

| Campos obrigatórios | Description | Tipo de slot | 
| --- | --- | --- | 
| banco de dados | O banco de dados em que o script SQL fornecido será executado. | Objeto de referência, por exemplo, “banco de dados”: \$1"ref”:” myDatabaseId “\$1 | 

 


****  

| Campos de invocação de objetos | Description | Tipo de slot | 
| --- | --- | --- | 
| agendamento |  Esse objeto é invocado durante a execução de um intervalo de programação. Você deve especificar uma referência de programação para outro objeto para definir a ordem de execução de dependência desse objeto. Você pode definir uma programação explicitamente no objeto, por exemplo, especificando `"schedule": {"ref": "DefaultSchedule"}`.  Na maioria dos casos, é melhor colocar a referência de programação no objeto de pipeline padrão para que todos os objetos herdem essa programação.  Se o pipeline tiver uma árvore de programações aninhada na programação principal, crie um objeto pai que tenha uma referência de programação. Para obter mais informações sobre o exemplo de configurações opcionais de programação, consulte [https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html](https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html).  | Objeto de referência, por exemplo, “agenda”: \$1"ref”:” myScheduleId “\$1 | 

 


****  

| Grupo obrigatório (um dos seguintes é obrigatório) | Description | Tipo de slot | 
| --- | --- | --- | 
| script | O script SQL a ser executado. Você deve especificar script ou scriptUri. Quando o script é armazenado no Amazon S3, o script não é avaliado como uma expressão. Especificar vários valores para scriptArgument é útil quando o script é armazenado no Amazon S3. | String | 
| scriptUri | Um URI especificando o local de um script SQL a ser executado nesta atividade. | String | 

 


****  

| Grupo obrigatório (um dos seguintes é obrigatório) | Description | Tipo de slot | 
| --- | --- | --- | 
| runsOn | O recurso computacional para executar a atividade ou o comando. Por exemplo, uma instância do Amazon EC2 ou um cluster do Amazon EMR. | Objeto de referência, por exemplo, “runsOn”: \$1"ref”:” myResourceId “\$1 | 
| workerGroup | O grupo de operadores. Isso é usado para tarefas de roteamento. Se você fornecer um valor de runsOn e workerGroup existir, será ignorado.workerGroup | String | 

 


****  

| Campos opcionais | Description | Tipo de slot | 
| --- | --- | --- | 
| attemptStatus | Status mais recente da atividade remota. | String | 
| attemptTimeout | Tempo limite para conclusão do trabalho remoto. Se configurada, uma atividade remota não concluída dentro do prazo definido poderá ser executada novamente. | Período | 
| dependsOn | Especifique a dependência em outro objeto executável. | Objeto de referência, por exemplo, “dependsOn”: \$1"ref”:” myActivityId “\$1 | 
| failureAndRerunModo | Descreve o comportamento do nó do consumidor quando as dependências apresentam falhas ou são executadas novamente. | Enumeração | 
| input | Local dos dados de entrada. | Objeto de referência, por exemplo, “input”: \$1"ref”:” myDataNode Id "\$1 | 
| lateAfterTimeout | O período desde o início programado do pipeline no qual a execução do objeto deve começar. | Período | 
| maxActiveInstances | O número máximo de instâncias ativas simultâneas de um componente. Novas execuções não contam para o número de instâncias ativas. | Inteiro | 
| maximumRetries | Quantidade máxima de novas tentativas com falha. | Inteiro | 
| onFail | Uma ação a ser executada quando há falha no objeto atual. | Objeto de referência, por exemplo, “onFail”: \$1"ref”:” myActionId “\$1 | 
| onLateAction | Ações que devem ser acionadas se um objeto ainda não tiver sido programado ou ainda não tiver sido concluído no período de tempo desde o início programado do pipeline, conforme especificado por 'lateAfterTimeout'. | Objeto de referência, por exemplo, "onLateAction“: \$1" ref”:” myActionId “\$1 | 
| onSuccess | Uma ação a ser executada quando o objeto atual é executado com êxito. | Objeto de referência, por exemplo, “onSuccess”: \$1"ref”:” myActionId “\$1 | 
| saída | Local dos dados de saída. Isso só é útil para fazer referência a partir de um script (por exemplo\$1\$1output.tablename\$1) e para criar a tabela de saída definindo 'createTableSql' no nó de dados de saída. O resultado da consulta SQL não é gravado no nó de dados de saída. | Objeto de referência, por exemplo, “output”: \$1"ref”:” myDataNode Id "\$1 | 
| parent | Pai do objeto atual a partir do qual os slots serão herdados. | Objeto de referência, por exemplo, “parent”: \$1"ref”:” myBaseObject Id "\$1 | 
| pipelineLogUri | O URI do S3 (como 's3://BucketName/Key/ ') para carregar registros para o pipeline. | String | 
| precondition | Se desejar, você pode definir uma precondição. Um nó de dados não fica marcado como "READY" até que todas as precondições tenham sido atendidas. | Objeto de referência, por exemplo, “pré-condição”: \$1"ref”:” myPreconditionId “\$1 | 
| queue (fila) | [Apenas para o Amazon Redshift] Corresponde à configuração query\$1group no Amazon Redshift, que permite atribuir e priorizar atividades simultâneas com base em sua colocação em filas. O Amazon Redshift limita o número de conexões simultâneas a 15. Para obter mais informações, consulte [Atribuir consultas a filas](https://docs.aws.amazon.com/redshift/latest/dg/cm-c-executing-queries.html) no Guia do desenvolvedor de banco de dados do Amazon Redshift. | String | 
| reportProgressTimeout | Tempo limite para as chamadas sucessivas de trabalho remoto para reportProgress. Se definidas, as atividades remotas sem progresso para o período especificado podem ser consideradas como interrompidas e executadas novamente. | Período | 
| retryDelay | A duração do tempo limite entre duas novas tentativas. | Período | 
| scheduleType |  O tipo de programação permite que você especifique se os objetos na sua definição de pipeline devem ser programados no início ou no final do intervalo. Os valores são: `cron`, `ondemand` e `timeseries`.  A programação `timeseries` significa que as instâncias são programadas no final de cada intervalo. A programação `cron` significa que as instâncias são programadas no início de cada intervalo.  Uma programação `ondemand` permite que você execute um pipeline uma vez por ativação. Isso significa que você não precisa clonar nem recriar o pipeline para executá-lo novamente. Se você usar uma programação `ondemand`, ela precisará ser especificada no objeto padrão, além de ser a única `scheduleType` especificada para objetos no pipeline. Para usar pipelines `ondemand`, chame a operação `ActivatePipeline` para cada execução subsequente.  | Enumeração | 
| scriptArgument | Uma lista de variáveis do script. Além disso, você pode colocar expressões diretamente no campo do script. Vários valores para scriptArgument são úteis quando o script é armazenado no Amazon S3. Exemplo: \$1 \$1format (@scheduledStartTime, "YY-MM-DD HH:MM:SS"\$1\$1n\$1 \$1format (plusPeriod (@scheduledStartTime, “1 dia”), "HH:MM:SS"\$1 YY-MM-DD  | String | 

 


****  

| Campos de tempo de execução | Description | Tipo de slot | 
| --- | --- | --- | 
| @activeInstances | Lista dos objetos da instância ativa agendados no momento. | Objeto de referência, por exemplo, “ActiveInstances”: \$1"ref”:” myRunnableObject Id "\$1 | 
| @actualEndTime | Hora em que a execução deste objeto foi concluída. | DateTime | 
| @actualStartTime | Hora em que a execução deste objeto foi iniciada. | DateTime | 
| cancellationReason | O motivo do cancelamento, se esse objeto foi cancelado. | String | 
| @cascadeFailedOn | Descrição da cadeia de dependência na qual o objeto apresentou falha. | Objeto de referência, por exemplo, "cascadeFailedOn“: \$1" ref”:” myRunnableObject Id "\$1 | 
| emrStepLog | Registros da etapa do EMR disponíveis somente nas tentativas de atividade do EMR. | String | 
| errorId | O ID do erro se esse objeto apresentou falha. | String | 
| errorMessage | A mensagem de erro se esse objeto apresentou falha. | String | 
| errorStackTrace | O rastreamento de pilha com erro se esse objeto apresentou falha. | String | 
| @finishedTime | A hora em que esse objeto terminou a execução. | DateTime | 
| hadoopJobLog | Registos de trabalho do Hadoop disponíveis nas tentativas de atividades baseadas em EMR. | String | 
| @healthStatus | O status de integridade do objeto que indica se houve sucesso ou falha na última instância concluída do objeto. | String | 
| @healthStatusFromInstanceId | ID do último objeto da instância concluído. | String | 
| @ healthStatusUpdated Hora | Hora em que o status de integridade foi atualizado pela última vez. | DateTime | 
| hostname | O nome do host do cliente que capturou a tentativa da tarefa. | String | 
| @lastDeactivatedTime | A hora em que esse objeto foi desativado pela última vez. | DateTime | 
| @ latestCompletedRun Hora | Hora da última execução concluída. | DateTime | 
| @latestRunTime | Hora da última execução programada. | DateTime | 
| @nextRunTime | Hora da próxima execução a ser programada. | DateTime | 
| reportProgressTime | A última vez que a atividade remota relatou progresso. | DateTime | 
| @scheduledEndTime | Horário de término da programação para o objeto. | DateTime | 
| @scheduledStartTime | Horário de início da programação para o objeto. | DateTime | 
| @status | O status deste objeto. | String | 
| @version | A versão do pipeline com que o objeto foi criado. | String | 
| @waitingOn | Descrição da lista de dependências em que este objeto está aguardando. | Objeto de referência, por exemplo, “waitingOn”: \$1"ref”:” myRunnableObject Id "\$1 | 

 


****  

| Campos do sistema | Description | Tipo de slot | 
| --- | --- | --- | 
| @error | Erro ao descrever o objeto malformado. | String | 
| @pipelineId | ID do pipeline ao qual este objeto pertence. | String | 
| @sphere | A esfera de um objeto denota seu lugar no ciclo de vida: os objetos componentes dão origem aos objetos de instância que executam os objetos de tentativa. | String | 