

AWS Data Pipeline non è più disponibile per i nuovi clienti. I clienti esistenti di AWS Data Pipeline possono continuare a utilizzare il servizio normalmente. [Ulteriori informazioni](https://aws.amazon.com/blogs/big-data/migrate-workloads-from-aws-data-pipeline/)

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Esecuzione del lavoro su risorse esistenti utilizzando Task Runner
<a name="dp-how-task-runner-user-managed"></a>

Puoi installare Task Runner su risorse di calcolo che gestisci, come un'istanza Amazon EC2 o un server o una workstation fisica. Task Runner può essere installato ovunque, su qualsiasi hardware o sistema operativo compatibile, a condizione che possa comunicare con il servizio web. AWS Data Pipeline 

Questo approccio può essere utile quando, ad esempio, si desidera utilizzare per AWS Data Pipeline elaborare i dati archiviati all'interno del firewall dell'organizzazione. Installando Task Runner su un server della rete locale, è possibile accedere al database locale in modo sicuro e quindi eseguire il polling AWS Data Pipeline per l'operazione successiva da eseguire. Quando AWS Data Pipeline termina l'elaborazione o elimina la pipeline, l'istanza di Task Runner rimane in esecuzione sulla risorsa di calcolo fino a quando non viene chiusa manualmente. I log di Task Runner persistono dopo il completamento dell'esecuzione della pipeline. 

Per utilizzare Task Runner su una risorsa gestita dall'utente, è necessario innanzitutto scaricare Task Runner e quindi installarlo sulla risorsa di calcolo utilizzando le procedure descritte in questa sezione. 

**Nota**  
 Puoi installare Task Runner solo su Linux, UNIX o macOS. Task Runner non è supportato nel sistema operativo Windows.   
Per utilizzare Task Runner 2.0, la versione minima di Java richiesta è 1.7.

Per connettere un Task Runner che avete installato alle attività della pipeline che deve elaborare, aggiungete un `workerGroup` campo all'oggetto e configurate Task Runner per verificare il valore del gruppo di lavoro. Puoi farlo passando la stringa del gruppo di lavoro come parametro (ad esempio,`--workerGroup=wg-12345`) quando esegui il file JAR di Task Runner. 

![\[AWS Data Pipeline diagram showing monthly task flow for archiving processed invoices using Task Runner.\]](http://docs.aws.amazon.com/it_it/datapipeline/latest/DeveloperGuide/images/dp-task-runner-user-emr-jobflow.png)


```
{
  "id" : "CreateDirectory",
  "type" : "ShellCommandActivity",
  "workerGroup" : "wg-12345",
  "command" : "mkdir new-directory"
}
```

## Installazione di Task Runner
<a name="dp-installing-taskrunner"></a>

Questa sezione spiega come installare e configurare Task Runner e i relativi prerequisiti. L'installazione è un semplice processo manuale.

**Per installare Task Runner**

1. Task Runner richiede le versioni Java 1.6 o 1.8. Per determinare se Java è installato e la versione in esecuzione, utilizzare il comando seguente:

   ```
   java -version
   ```

    Se sul computer non è installato Java 1.6 o 1.8, scaricate una di queste versioni da [http://www.oracle. com/technetwork/java/index.html](http://www.oracle.com/technetwork/java/index.html). Scaricare e installare Java, quindi procedere con il passaggio successivo.

1. Scarica `TaskRunner-1.0.jar` da [https://s3.amazonaws.com/datapipeline-us-east-1/us-east-1/ software/latest/TaskRunner/TaskRunner -1.0.jar](https://s3.amazonaws.com/datapipeline-us-east-1/us-east-1/software/latest/TaskRunner/TaskRunner-1.0.jar) e poi copialo in una cartella sulla risorsa di calcolo di destinazione. Per i cluster Amazon EMR che eseguono `EmrActivity` attività, installa Task Runner sul nodo master del cluster.

1. Quando utilizzano Task Runner per connettersi al servizio AWS Data Pipeline Web per elaborare i comandi, gli utenti devono accedere programmaticamente a un ruolo che dispone delle autorizzazioni per creare o gestire pipeline di dati. Per ulteriori informazioni, consulta [Concessione dell'accesso programmatico](dp-get-setup.md#dp-grant-programmatic-access).

1. Task Runner si connette al servizio Web tramite HTTPS AWS Data Pipeline . Se utilizzi una AWS risorsa, assicurati che HTTPS sia abilitato nella tabella di routing e nell'ACL di sottorete appropriati. Se si sta usando un firewall o un proxy, assicurarsi che la porta 443 sia aperta.

# (Facoltativo) Concessione dell'accesso a Task Runner ad Amazon RDS
<a name="dp-taskrunner-rdssecurity"></a>

Amazon RDS ti consente di controllare l'accesso alle tue istanze DB utilizzando gruppi di sicurezza del database (gruppi di sicurezza DB). Un gruppo di sicurezza DB si comporta come un firewall, controllando l'accesso di rete all'istanza database. Per impostazione predefinita, l'accesso alla rete è disattivato per le istanze database. È necessario modificare i gruppi di sicurezza del database per consentire a Task Runner di accedere alle istanze Amazon RDS. Task Runner ottiene l'accesso ad Amazon RDS dall'istanza su cui viene eseguita, quindi gli account e i gruppi di sicurezza che aggiungi all'istanza Amazon RDS dipendono da dove installi Task Runner. 

**Per concedere l'accesso a Task Runner in EC2-Classic**

1. Apri la console Amazon RDS.

1. Nel riquadro di navigazione scegliere **Instances (Istanze)** e quindi selezionare l'istanza database.

1. In **Security and Network (Sicurezza e Network)**, selezionare il gruppo di sicurezza che apre la pagina relativa ai **Security Groups (Gruppi di sicurezza)** con questo gruppo di sicurezza di database selezionato. Selezionare l'icona dei dettagli per il gruppo di sicurezza DB.

1. In **Security Group Details (Dettagli gruppo di sicurezza)**, creare una regola con il **Connection Type (Tipo di connessione)** e i **Details (Dettagli)** appropriati. Questi campi dipendono dalla posizione in cui è in esecuzione Task Runner, come descritto di seguito:
   + `Ec2Resource`
     + **Connection Type (Tipo di connessione)**: `EC2 Security Group`

       **Dettagli**: *my-security-group-name* (il nome del gruppo di sicurezza che hai creato per l'istanza EC2)
   + `EmrResource`
     + **Connection Type (Tipo di connessione)**: `EC2 Security Group`

       **Details (Dettagli)**: `ElasticMapReduce-master`
     + **Connection Type (Tipo di connessione)**: `EC2 Security Group`

       **Details (Dettagli)**: `ElasticMapReduce-slave`
   + Ambiente locale (in locale)
     + **Connection Type (Tipo di connessione)**: `CIDR/IP`:

       **Dettagli**: *my-ip-address* (l'indirizzo IP del computer o l'intervallo di indirizzi IP della rete, se il computer è protetto da un firewall)

1. Fare clic su Add (Aggiungi).

**Per concedere l'accesso a Task Runner in EC2-VPC**

1. Apri la console Amazon RDS.

1. Nel riquadro di navigazione, scegliere **Instances (Istanze)**.

1. Selezionare l'icona dei dettagli per l'istanza database. In **Sicurezza e rete**, apri il link al gruppo di sicurezza, che ti porta alla console Amazon EC2. Se si utilizza il vecchio progetto della console per i gruppi di sicurezza, passare al nuovo progetto della console selezionando l'icona visualizzata nella parte superiore della pagina della console.

1. Nella scheda **Inbound (In entrata)**, scegli **Edit (Modifica)**, **Add Rule (Aggiungi regola)**. Specificare la porta del database utilizzata quando è stata avviata l'istanza database. L'origine dipende da dove è in esecuzione Task Runner, come descritto qui:
   + `Ec2Resource`
     + *my-security-group-id*(l'ID del gruppo di sicurezza che hai creato per l'istanza EC2)
   + `EmrResource`
     + *master-security-group-id*(l'ID del gruppo di `ElasticMapReduce-master` sicurezza)
     + *slave-security-group-id*(l'ID del gruppo `ElasticMapReduce-slave` di sicurezza)
   + Ambiente locale (in locale)
     + *ip-address*(l'indirizzo IP del computer o l'intervallo di indirizzi IP della rete, se il computer è protetto da un firewall)

1. Fai clic su **Salva**.

## Avvio di Task Runner
<a name="dp-activate-task-runner"></a>

In una nuova finestra del prompt dei comandi impostata sulla directory in cui è installato Task Runner, avvia Task Runner con il comando seguente.

```
java -jar TaskRunner-1.0.jar --config ~/credentials.json --workerGroup=myWorkerGroup --region=MyRegion --logUri=s3://amzn-s3-demo-bucket/foldername
```

L'opzione `--config` punta al file delle credenziali.

L'opzione `--workerGroup` specifica il nome del gruppo di lavoratori, che deve essere lo stesso valore specificato nella pipeline per le attività da elaborare.

L'opzione `--region` specifica la regione del servizio da cui prendere le operazioni da eseguire.

L'`--logUri`opzione viene utilizzata per inviare i log compressi in una posizione in Amazon S3.

Quando Task Runner è attivo, stampa il percorso in cui vengono scritti i file di registro nella finestra del terminale. Di seguito è riportato un esempio di :

```
Logging to /Computer_Name/.../output/logs
```

Task Runner deve essere eseguito non collegato alla shell di login. Se si sta usando un'applicazione terminale per connettersi al computer, potrebbe essere necessario utilizzare una utility come nohup o schermo per evitare di uscire dall'applicazione Task Runner al momento della disconnessione. Per ulteriori informazioni sulle opzioni delle righe di comando, consulta [Opzioni di configurazione di Task Runner](dp-taskrunner-config-options.md).

## Verifica della registrazione di Task Runner
<a name="dp-verify-task-runner"></a>

Il modo più semplice per verificare che Task Runner funzioni è verificare se sta scrivendo file di registro. Task Runner scrive i file di registro ogni ora nella directory`output/logs`, nella directory in cui è installato Task Runner. Il nome del file è `Task Runner.log.YYYY-MM-DD-HH`, dove HH viene eseguito da mezzanotte alle 23:00, in UDT. Per risparmiare spazio di archiviazione, tutti i file di registro più vecchi di otto ore vengono compressi con. GZip