Nozioni di base su AWS Data Pipeline - AWS Data Pipeline

AWS Data Pipeline non è più disponibile per i nuovi clienti. I clienti esistenti di AWS Data Pipeline possono continuare a utilizzare il servizio normalmente. Ulteriori informazioni

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Nozioni di base su AWS Data Pipeline

AWS Data Pipeline facilita la creazione di sequenze, la pianificazione, l'esecuzione e la gestione di carichi di lavoro per l'elaborazione di dati ricorrenti in modo affidabile e conveniente. Questo servizio semplifica la progettazione di attività extract-transform-load (ETL) utilizzando dati strutturati e non strutturati, sia in locale che nel cloud, in base alla logica aziendale.

Per utilizzare AWS Data Pipeline, è necessario creare una pipeline definition (definizione di pipeline) che specifica la logica di business per l'elaborazione dei dati. Una tipica definizione di pipeline è costituita da attività che definiscono il lavoro da eseguire e nodi di dati che definiscono la posizione e il tipo di dati di input e output.

In questo tutorial, si esegue lo script di un comando shell che conta il numero di richieste GET nei log del server Web Apache. Questa pipeline viene eseguita ogni 15 minuti per un'ora e scrive l'output su Amazon S3 a ogni iterazione.

Prerequisiti

Prima di iniziare, completa le attività in Configurazione per AWS Data Pipeline.

Oggetti della pipeline

La pipeline utilizza i seguenti oggetti:

ShellCommandActivity

Legge i file di log di input e conta il numero di errori.

S3 DataNode (input)

Bucket S3 che contiene il file di log di input.

S3 DataNode (output)

Bucket S3 per l'output.

Ec2Resource

Le risorse di calcolo che AWS Data Pipeline utilizza per eseguire l'attività.

Si noti che se si dispone di una grande quantità di dati di file di log, è possibile configurare la pipeline per l'utilizzo di un cluster EMR e l'elaborazione dei file invece di un'istanza EC2.

Pianificazione

Stabilisce che l'attività venga eseguita ogni 15 minuti per un'ora.

Per creare la pipeline

Il modo più rapido per iniziare con AWS Data Pipeline è utilizzare una definizione di pipeline denominata template (modello).

Per creare la pipeline
  1. Apri la AWS Data Pipeline console all'indirizzo https://console.aws.amazon.com/datapipeline/.

  2. Nella barra di navigazione, selezionare una regione. È possibile selezionare qualsiasi regione disponibile, indipendentemente dalla posizione. Molte risorse AWS sono specifiche per una regione, ma AWS Data Pipeline consente di utilizzare le risorse in un'altra regione rispetto alla pipeline.

  3. La prima schermata visualizzata dipende dal fatto che tu abbia creato una pipeline nella regione corrente.

    1. Se non hai creato una pipeline in questa regione, la console visualizza una schermata introduttiva. Scegli Inizia subito.

    2. Se hai già creato una pipeline in questa regione, la console visualizza una pagina che elenca le pipeline per la regione. Scegli Crea nuova pipeline.

  4. In Nome, inserisci un nome per la pipeline.

  5. (Facoltativo) In Descrizione, inserisci una descrizione per la pipeline.

  6. Per Source, seleziona Crea utilizzando un modello, quindi seleziona il seguente modello: Guida introduttiva a utilizzare ShellCommandActivity.

  7. Nella sezione Parameters (Parametri) che si è aperta quando è stato selezionato il modello, lasciare i valori predefiniti nella S3 input folder (cartella di input S3) e nel Shell command to run (Comando Shell da eseguire). Fare clic sull'icona della cartella accanto a S3 output folder (Cartella di output S3), selezionare uno dei bucket o delle cartelle, quindi fare clic su Select (Seleziona).

  8. In Schedule (Pianificazione), lasciare i valori predefiniti. Quando si attiva la pipeline, viene eseguito l'avvio della pipeline che si ripete ogni 15 minuti per un'ora.

    Se si preferisce, è possibile selezionare Run once on pipeline activation (Esegui una volta all'attivazione della pipeline).

  9. In Pipeline Configuration, lascia la registrazione abilitata. Scegli l'icona della cartella nella posizione S3 per i log, seleziona uno dei tuoi bucket o cartelle, quindi scegli Seleziona.

    Se preferisci, puoi invece disattivare la registrazione.

  10. In Security/Access, lascia i ruoli IAM impostati su Predefinito.

  11. Fai clic su Activate (Attiva).

    Se preferisci, puoi scegliere Modifica in Architect per modificare questa pipeline. Ad esempio, puoi aggiungere condizioni preliminari.

Monitorare la pipeline in esecuzione

Dopo aver attivato la pipeline, visualizzare la pagina Execution details (Dettagli esecuzione), dove è possibile monitorare l'avanzamento della pipeline.

Per monitorare l'avanzamento della pipeline
  1. Fare clic su Update (Aggiorna) o premere F5 per aggiornare lo stato visualizzato.

    Suggerimento

    Se non vi sono esecuzioni elencate, verificare che Start (in UTC) (Inizio (in UTC)) e End (in UTC) (Fine (in UTC)) coprano l'inizio e la fine pianificati della pipeline, quindi selezionare Update (Aggiorna).

  2. Quando lo stato di ogni oggetto nella pipeline è FINISHED, significa che la tua pipeline ha completato correttamente le attività pianificate.

  3. Se la pipeline non viene completata correttamente, verifica se vi sono problemi con le impostazioni della pipeline. Per ulteriori informazioni sulla risoluzione di problemi con istanze della pipeline non eseguite o non completate, consulta Risoluzione dei problemi più comuni.

Visualizzazione dell'output

Apri la console Amazon S3 e accedi al tuo bucket. Se si esegue la pipeline ogni 15 minuti per un'ora, verranno visualizzate quattro sottocartelle con time-stamp. Ogni sottocartella contiene l'output in un file denominato output.txt. Poiché ogni volta lo script è stato eseguito sullo stesso file di input, i file di output sono identici.

Per eliminare la pipeline

Per non incorrere in addebiti, elimina la pipeline. L'eliminazione della pipeline comporta l'eliminazione della definizione della pipeline e di tutti gli oggetti associati.

Per eliminare la pipeline
  1. Nella pagina Elenco tubazioni, seleziona la tua pipeline.

  2. Fai clic su Azioni, quindi scegli Elimina.

  3. Quando viene richiesta la conferma, seleziona Delete (Elimina).

Se hai finito con l'output di questo tutorial, elimina le cartelle di output dal tuo bucket Amazon S3.