Fase 1: Creare la macchina a stati Passaggio 2: Esegui la macchina a stati

Elabora i dati in un bucket Amazon S3 con Distributed Map

Questo progetto di esempio dimostra come è possibile utilizzare lo stato della Mappa Distribuita per elaborare dati su larga scala, ad esempio analizzare dati meteorologici storici e identificare la stazione meteorologica con la temperatura media più alta del pianeta ogni mese. I dati meteorologici vengono registrati in oltre 12.000 CSV file, che a loro volta vengono archiviati in un bucket Amazon S3.

Questo progetto di esempio include due stati di Distributed Map denominati Distributed S3 copy NOA Data e P. rocessNOAAData NOAI dati di copia S3 distribuiti eseguono iterazioni sui CSV file in un bucket Amazon S3 pubblico noaa-gsod-pdsdenominato e li copia in un bucket Amazon S3 del tuo. Account AWSP esegue rocessNOAAData iterazioni sui file copiati e include una funzione Lambda che esegue l'analisi della temperatura.

Il progetto di esempio verifica innanzitutto il contenuto del bucket Amazon S3 con una chiamata all'ListObjectsazione V2. API In base al numero di chiavi restituite in risposta a questa chiamata, il progetto di esempio prende una delle seguenti decisioni:

Se il conteggio delle chiavi è maggiore o uguale a 1, il progetto passa allo rocessNOAAData stato P. Questo stato della mappa distribuita include un Lambda funzione denominata TemperatureFunctionche trova la stazione meteorologica con la temperatura media più alta ogni mese. Questa funzione restituisce un dizionario con year-month come chiave e un dizionario che contiene informazioni sulla stazione meteorologica come valore.
Se il numero di chiavi restituito non supera 1, lo stato Distributed S3 copy NOA Data elenca tutti gli oggetti dal bucket pubblico noaa-gsod-pdse copia iterativamente i singoli oggetti in un altro bucket del tuo account in batch di 100. Una Inline Map esegue la copia iterativa degli oggetti.

Dopo aver copiato tutti gli oggetti, il progetto passa rocessNOAAData allo stato P per l'elaborazione dei dati meteorologici.

Il progetto di esempio passa infine a un riduttore Lambda funzione che esegue un'aggregazione finale dei risultati restituiti dalla TemperatureFunctionfunzione e scrive i risultati in un Amazon DynamoDB tabella.

Con Distributed Map, puoi eseguire fino a 10.000 esecuzioni parallele di workflow secondari alla volta. In questo progetto di esempio, la concorrenza massima di P rocessNOAAData Distributed Map è impostata su 3000, il che la limita a 3000 esecuzioni parallele di flussi di lavoro secondari.

Questo progetto di esempio crea la macchina a stati, le AWS risorse di supporto e configura le relative autorizzazioni. IAM Esplora questo progetto di esempio per scoprire come utilizzare la Distributed Map per orchestrare carichi di lavoro paralleli su larga scala o usala come punto di partenza per i tuoi progetti.

Importante

Questo progetto di esempio è disponibile solo nella regione Stati Uniti orientali (Virginia settentrionale).

Fase 1: Creare la macchina a stati

Apri la console Step Functions e scegli Crea macchina a stati.
Trova e scegli il modello iniziale con cui vuoi lavorare. Seleziona Successivo per continuare.
Scegli Esegui una demo per creare un ready-to-deploy flusso di lavoro di sola lettura o scegli Crea su di esso per creare una definizione di macchina a stati modificabile da utilizzare e distribuire in un secondo momento.
Scegli Usa modello per continuare con la selezione.

I passaggi successivi dipendono dalla scelta precedente:

Esegui una demo: puoi esaminare la macchina a stati prima di creare un progetto di sola lettura con risorse distribuite da AWS CloudFormation te. Account AWS

Puoi visualizzare la definizione della macchina a stati e, quando sei pronto, scegli Distribuisci ed esegui per distribuire il progetto e creare le risorse.

La creazione di risorse e autorizzazioni può richiedere fino a 10 minuti per la distribuzione. Puoi utilizzare il link Stack ID per monitorare i progressi in. AWS CloudFormation

Una volta completata la distribuzione, dovresti vedere la tua nuova macchina a stati nella console.
Sviluppala: puoi rivedere e modificare la definizione del flusso di lavoro. Potrebbe essere necessario impostare i valori per i segnaposto nel progetto di esempio prima di provare a eseguire il flusso di lavoro personalizzato.

Nota

Potrebbero essere applicati costi standard per i servizi distribuiti sul tuo account.

Passaggio 2: Esegui la macchina a stati

Nella pagina Macchine a stati, scegli il tuo progetto di esempio.
Nella pagina del progetto di esempio, scegli Avvia esecuzione.
Nella finestra di dialogo Avvia esecuzione, effettuate le seguenti operazioni:
1. (Facoltativo) Immettete un nome di esecuzione personalizzato per sovrascrivere il valore predefinito generato.
  
  ASCIINomi diversi e registrazione
  Step Functions accetta nomi per macchine a stati, esecuzioni, attività ed etichette che contengono non ASCII caratteri. Poiché tali caratteri non funzioneranno con Amazon CloudWatch, ti consigliamo di utilizzare solo ASCII caratteri in modo da poter tenere traccia delle metriche. CloudWatch
2. (Facoltativo) Nella casella Input, inserisci i valori di input comeJSON. Puoi saltare questo passaggio se stai eseguendo una demo.
3. Selezionare Start execution (Avvia esecuzione).
La console Step Functions ti indirizzerà a una pagina dei dettagli di esecuzione in cui puoi scegliere gli stati nella vista Graph per esplorare le informazioni correlate nel Dettagli del passaggio riquadro.

Complimenti!

Ora dovresti avere una demo in esecuzione o una definizione di macchina a stati che puoi personalizzare.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Mappa distribuita per elaborare un CSV file in S3

Addestra un modello di machine learning