Seleziona le tue preferenze relative ai cookie

Utilizziamo cookie essenziali e strumenti simili necessari per fornire il nostro sito e i nostri servizi. Utilizziamo i cookie prestazionali per raccogliere statistiche anonime in modo da poter capire come i clienti utilizzano il nostro sito e apportare miglioramenti. I cookie essenziali non possono essere disattivati, ma puoi fare clic su \"Personalizza\" o \"Rifiuta\" per rifiutare i cookie prestazionali.

Se sei d'accordo, AWS e le terze parti approvate utilizzeranno i cookie anche per fornire utili funzionalità del sito, ricordare le tue preferenze e visualizzare contenuti pertinenti, inclusa la pubblicità pertinente. Per continuare senza accettare questi cookie, fai clic su \"Continua\" o \"Rifiuta\". Per effettuare scelte più dettagliate o saperne di più, fai clic su \"Personalizza\".

Tutorial: creazione del primo carico di lavoro di streaming utilizzando AWS Glue Studio

Modalità Focus
Tutorial: creazione del primo carico di lavoro di streaming utilizzando AWS Glue Studio - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

In questo tutorial imparerai a creare un processo di streaming utilizzando AWS Glue Studio. AWS Glue Studio è un'interfaccia visiva per creare processi di AWS Glue.

È possibile creare processi in streaming di estrazione, trasformazione e caricamento (ETL) che vengono eseguiti continuamente e utilizzano dati da origini di streaming in Flusso di dati Amazon Kinesis, Apache Kafka e Streaming gestito da Amazon per Apache Kafka (Amazon MSK).

Prerequisiti

Per seguire questo tutorial è necessario un utente munito delle autorizzazioni della console AWS per utilizzare AWS Glue, Amazon Kinesis, Amazon S3, Amazon Athena, AWS CloudFormation, AWS Lambda e Amazon Cognito.

Utilizzo dei dati in streaming da Amazon Kinesis

Generazione di dati fittizi con Kinesis Data Generator

È possibile generare sinteticamente dati di esempio in formato JSON utilizzando Kinesis Data Generator (KDG). Puoi trovare le istruzioni complete e i dettagli nella documentazione dello strumento.

  1. Per iniziare, fai clic su Orange button labeled "Launch Stack" with an arrow icon. per eseguire un modello AWS CloudFormation nel tuo ambiente AWS.

    Nota

    Potresti riscontrare un errore nel modello CloudFormation perché alcune risorse, come l'utente Amazon Cognito per Kinesis Data Generator, esistono già nel tuo account AWS. Ciò potrebbe essere dovuto al fatto che l'hai già configurato in un altro tutorial o da un post di un blog. Per risolvere questo problema, puoi provare a utilizzare il modello in un nuovo account AWS oppure in un'altra regione AWS. Queste opzioni consentono di eseguire il tutorial senza entrare in conflitto con le risorse esistenti.

    Il modello fornisce un flusso di dati Kinesis e un account Kinesis Data Generator. Crea anche un bucket Amazon S3 per contenere i dati e un ruolo di servizio Glue con l'autorizzazione richiesta per questo tutorial.

  2. Immetti un Nome utente e una Password che KDG utilizzerà per l'autenticazione. Prendi nota del nome utente e della password per utilizzarli in seguito.

  3. Seleziona Avanti fino all'ultimo passaggio. Esprimi il consenso alla creazione di risorse IAM. Verifica la presenza di eventuali errori nella parte superiore dello schermo, ad esempio la password che non soddisfa i requisiti minimi, e implementa il modello.

  4. Vai alla scheda Output dello stack. Una volta implementato, il modello mostrerà la proprietà generata KinesisDataGeneratorUrl. Fai clic su quell'URL.

  5. Inserisci il Nome utente e la Password di cui hai preso nota.

  6. Seleziona la regione che stai utilizzando e seleziona il flusso Kinesis GlueStreamTest-{AWS::AccountId}.

  7. Immetti il seguente modello:

    { "ventilatorid": {{random.number(100)}}, "eventtime": "{{date.now("YYYY-MM-DD HH:mm:ss")}}", "serialnumber": "{{random.uuid}}", "pressurecontrol": {{random.number( { "min":5, "max":30 } )}}, "o2stats": {{random.number( { "min":92, "max":98 } )}}, "minutevolume": {{random.number( { "min":5, "max":8 } )}}, "manufacturer": "{{random.arrayElement( ["3M", "GE","Vyaire", "Getinge"] )}}" }

    Ora puoi visualizzare i dati fittizi con Modello di prova e importare i dati fittizi in Kinesis con Invia dati.

  8. Fai clic su Invia dati e genera 5-10.000 record su Kinesis.

Creazione di un processo di streaming di AWS Glue con AWS Glue Studio

  1. Passa alla console AWS Glue nella stessa regione.

  2. Seleziona Processi ETL nella barra di navigazione a sinistra in Integrazione dati ed ETL.

  3. Crea un processo di AWS Glue tramite Visivo con canvas vuoto.

    Lo screenshot mostra la finestra di dialogo Crea processo.
  4. Passa alla scheda Dettagli del processo.

  5. Per il nome del processo di AWS Glue, immetti DemoStreamingJob.

  6. Per Ruolo IAM, seleziona il ruolo fornito dal modello CloudFormation, glue-tutorial-role-${AWS::AccountId}.

  7. Per Versione Glue, seleziona Glue 3.0. Mantieni tutte le altre opzioni predefinite.

    Lo screenshot mostra la scheda Dettagli del processo.
  8. Vai alla scheda Visivo.

  9. Fai clic sull'icona del segno più. Immetti Kinesis nella barra di ricerca. Seleziona l'origine dati Amazon Kinesis.

    Lo screenshot mostra la finestra di dialogo Aggiungi nodi.
  10. Seleziona Dettagli del flusso per Origine Amazon Kinesis nella scheda Proprietà dell'origine dati - Flusso Kinesis.

  11. Seleziona Il flusso si trova nel mio account per Posizione del flusso di dati.

  12. Seleziona la regione che stai utilizzando.

  13. Seleziona il flusso GlueStreamTest-{AWS::AccountId}.

  14. Mantieni tutte le altre impostazioni predefinite.

    Lo screenshot mostra la scheda Proprietà dell'origine dati.
  15. Vai alla scheda Anteprima dei dati.

  16. Fai clic su Avvia sessione di anteprima dei dati, che visualizza in anteprima i dati fittizi generati da KDG. Scegli il ruolo di servizio Glue che hai creato in precedenza per il processo di AWS Glue Streaming.

    Occorrono 30-60 secondi prima che i dati di anteprima vengano visualizzati. Se compare Nessun dato da visualizzare, fai clic sull'icona a forma di ingranaggio e imposta il Numero di righe in base al quale campionare su 100.

    Puoi visualizzare i dati di esempio come segue:

    Lo screenshot mostra la scheda Anteprima dei dati.

    È inoltre possibile visualizzare lo schema dedotto nella scheda Schema di output.

    Lo screenshot mostra la scheda Schema di output.

Esecuzione di una trasformazione e archiviazione del risultato della trasformazione in Amazon S3

  1. Con il nodo di origine selezionato, fai clic sull'icona del segno più in alto a sinistra per aggiungere un passaggio Trasformazioni.

  2. Seleziona il passaggio Modifica schema.

    Lo screenshot mostra la finestra di dialogo Aggiungi nodi.
  3. In questo passaggio è possibile rinominare i campi e convertire il tipo di dati dei campi. Rinomina la colonna o2stats in OxygenSaturation e converti tutti i tipi di dati long in int.

    Lo screenshot mostra la scheda Trasformazione.
  4. Fai clic sull'icona del segno più per aggiungere una destinazione Amazon S3. Immetti S3 nella casella di ricerca e seleziona la fase di trasformazione di Amazon S3 - Destinazione.

    Lo screenshot mostra la scheda Aggiungi nodi.
  5. Seleziona Parquet come formato del file di destinazione.

  6. Seleziona Snappy come tipo di compressione.

  7. Inserisci una Posizione di destinazione S3 creata dal modello CloudFormation, streaming-tutorial-s3-target-{AWS::AccountId}.

  8. Seleziona Crea una tabella nel Catalogo dati e, nelle esecuzioni successive, aggiorna lo schema e aggiungi nuove partizioni.

  9. Inserisci il nome del Database e della Tabella di destinazione per archiviare lo schema della tabella di destinazione Amazon S3.

    Lo screenshot mostra la pagina di configurazione per la destinazione Amazon S3.
  10. Fai clic sulla scheda Script per visualizzare il codice generato.

  11. Fai clic su Salva in alto a destra per salvare il codice ETL, quindi fai clic su Esegui per avviare il processo di streaming di AWS Glue.

    Puoi trovare lo Stato di esecuzione nella scheda Esecuzioni. Lascia che il processo venga eseguito per 3-5 minuti, quindi interrompilo.

    Lo screenshot mostra la scheda Esecuzioni.
  12. Verifica la nuova tabella creata in Amazon Athena.

    Lo screenshot mostra la tabella in Amazon Athena.
PrivacyCondizioni del sitoPreferenze cookie
© 2025, Amazon Web Services, Inc. o società affiliate. Tutti i diritti riservati.