

AWS Data Pipeline non è più disponibile per i nuovi clienti. I clienti esistenti di AWS Data Pipeline possono continuare a utilizzare il servizio normalmente. [Ulteriori informazioni](https://aws.amazon.com/blogs/big-data/migrate-workloads-from-aws-data-pipeline/)

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Guida introduttiva con AWS Data Pipeline
<a name="dp-getting-started"></a>

AWS Data Pipeline ti aiuta a sequenziare, pianificare, eseguire e gestire carichi di lavoro ricorrenti di elaborazione dati in modo affidabile ed economico. Questo servizio semplifica la progettazione di attività extract-transform-load (ETL) utilizzando dati strutturati e non strutturati, sia in locale che nel cloud, in base alla logica aziendale.

Per utilizzarlo AWS Data Pipeline, crei una *definizione di pipeline* che specifica la logica di business per l'elaborazione dei dati. Una tipica definizione di pipeline è costituita da [attività](dp-concepts-activities.md) che definiscono il lavoro da eseguire e da [nodi di dati](dp-concepts-datanodes.md) che definiscono la posizione e il tipo di dati di input e output.

In questo tutorial, si esegue lo script di un comando shell che conta il numero di richieste GET nei log del server Web Apache. Questa pipeline viene eseguita ogni 15 minuti per un'ora e scrive l'output su Amazon S3 a ogni iterazione.

**Prerequisiti**  
Prima di iniziare, completa le attività in [Configurazione per AWS Data Pipeline](dp-get-setup.md).

**Oggetti della pipeline**  
La pipeline utilizza i seguenti oggetti:

[ShellCommandActivity](dp-object-shellcommandactivity.md)  
Legge i file di log di input e conta il numero di errori.

[S3 DataNode](dp-object-s3datanode.md) (input)  
Bucket S3 che contiene il file di log di input.

[S3 DataNode](dp-object-s3datanode.md) (output)  
Bucket S3 per l'output.

[Ec2Resource](dp-object-ec2resource.md)  
La risorsa di calcolo AWS Data Pipeline utilizzata per eseguire l'attività.  
Tieni presente che se disponi di una grande quantità di dati dei file di registro, puoi configurare la pipeline per utilizzare un cluster EMR per elaborare i file anziché EC2 un'istanza.

[Schedule](dp-object-schedule.md)  
Stabilisce che l'attività venga eseguita ogni 15 minuti per un'ora.

**Topics**
+ [Per creare la pipeline](#dp-getting-started-create)
+ [Monitorare la pipeline in esecuzione](#dp-getting-started-monitor)
+ [Visualizzazione dell'output](#dp-getting-started-output)
+ [Per eliminare la pipeline](#dp-getting-started-delete)

## Per creare la pipeline
<a name="dp-getting-started-create"></a>

*Il modo più rapido per iniziare AWS Data Pipeline è utilizzare una definizione di pipeline chiamata modello.*

**Per creare la pipeline**

1. Apri la AWS Data Pipeline console all'indirizzo. [https://console.aws.amazon.com/datapipeline/](https://console.aws.amazon.com/datapipeline/)

1. Nella barra di navigazione, selezionare una regione. È possibile selezionare qualsiasi regione disponibile, indipendentemente dalla posizione. Molte risorse AWS sono specifiche per una regione, ma AWS Data Pipeline consentono di utilizzare risorse che si trovano in una regione diversa rispetto alla pipeline.

1. La prima schermata che vedi dipende dal fatto che tu abbia creato una pipeline nella regione corrente.

   1. Se non hai creato una pipeline in questa regione, la console visualizza una schermata introduttiva. Scegli Inizia **subito**.

   1. Se hai già creato una pipeline in questa regione, la console visualizza una pagina che elenca le pipeline per la regione. Scegli **Crea nuova pipeline**.

1. In **Nome**, inserisci un nome per la pipeline.

1. (Facoltativo) In **Descrizione**, inserisci una descrizione per la pipeline.

1. Per **Source**, seleziona **Crea usando un modello**, quindi seleziona il seguente modello: **Guida introduttiva all'uso ShellCommandActivity**.

1. Nella sezione **Parameters (Parametri)** che si è aperta quando è stato selezionato il modello, lasciare i valori predefiniti nella **S3 input folder (cartella di input S3)** e nel **Shell command to run (Comando Shell da eseguire)**. Fare clic sull'icona della cartella accanto a **S3 output folder (Cartella di output S3)**, selezionare uno dei bucket o delle cartelle, quindi fare clic su **Select (Seleziona)**.

1. In **Schedule (Pianificazione)**, lasciare i valori predefiniti. Quando si attiva la pipeline, viene eseguito l'avvio della pipeline che si ripete ogni 15 minuti per un'ora.

   Se si preferisce, è possibile selezionare **Run once on pipeline activation (Esegui una volta all'attivazione della pipeline)**.

1. In **Pipeline Configuration**, lascia la registrazione abilitata. **Scegli l'icona della cartella nella **posizione S3 per i log**, seleziona uno dei bucket o delle cartelle, quindi scegli Seleziona.**

   Se preferisci, puoi invece disabilitare la registrazione.

1. **In **Security/Access**, lascia i **ruoli IAM** impostati su Predefiniti.**

1. Fai clic su **Activate (Attiva)**.

   Se preferisci, puoi scegliere **Modifica in Architect per modificare** questa pipeline. Ad esempio, puoi aggiungere condizioni preliminari.

## Monitorare la pipeline in esecuzione
<a name="dp-getting-started-monitor"></a>

Dopo aver attivato la pipeline, visualizzare la pagina **Execution details (Dettagli esecuzione)**, dove è possibile monitorare l'avanzamento della pipeline.

**Per monitorare l'avanzamento della pipeline**

1. Fare clic su **Update (Aggiorna)** o premere F5 per aggiornare lo stato visualizzato.
**Suggerimento**  
Se non vi sono esecuzioni elencate, verificare che **Start (in UTC) (Inizio (in UTC))** e **End (in UTC) (Fine (in UTC))** coprano l'inizio e la fine pianificati della pipeline, quindi selezionare **Update (Aggiorna)**.

1. Quando lo stato di ogni oggetto nella pipeline è `FINISHED`, significa che la tua pipeline ha completato correttamente le attività pianificate.

1. Se la pipeline non viene completata correttamente, verifica se vi sono problemi con le impostazioni della pipeline. Per ulteriori informazioni sulla risoluzione di problemi con istanze della pipeline non eseguite o non completate, consulta [Risoluzione dei problemi più comuni](dp-check-when-run-fails.md).

## Visualizzazione dell'output
<a name="dp-getting-started-output"></a>

Apri la console Amazon S3 e accedi al tuo bucket. Se si esegue la pipeline ogni 15 minuti per un'ora, verranno visualizzate quattro sottocartelle con time-stamp. Ogni sottocartella contiene l'output in un file denominato `output.txt`. Poiché ogni volta lo script è stato eseguito sullo stesso file di input, i file di output sono identici.

## Per eliminare la pipeline
<a name="dp-getting-started-delete"></a>

Per evitare di incorrere in addebiti, elimina la pipeline. L'eliminazione della pipeline comporta l'eliminazione della definizione della pipeline e di tutti gli oggetti associati.

**Per eliminare la pipeline**

1. Nella pagina **Elenca tubazioni**, seleziona la pipeline.

1. **Fai clic su **Azioni**, quindi scegli Elimina.**

1. Quando viene richiesta la conferma, seleziona **Elimina**.

Se hai finito con l'output di questo tutorial, elimina le cartelle di output dal tuo bucket Amazon S3.