Che cos'è AWS Glue? - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Che cos'è AWS Glue?

AWS Glue è un servizio di integrazione dati serverless che semplifica agli utenti analitici il rilevamento, la preparazione, lo spostamento e l'integrazione di dati da più origini. Puoi usarlo per analisi, machine learning e sviluppo di applicazioni. Include anche strumenti aggiuntivi di produttività e gestione dei dati per la creazione, l'esecuzione di processi e l'implementazione di flussi di lavoro aziendali.

Con AWS Glue puoi rilevare e collegarti a oltre 70 diverse origini di dati e gestire i tuoi dati in un catalogo dati centralizzato. Puoi creare, eseguire e monitorare visivamente pipeline di estrazione, trasformazione e caricamento (ETL) per caricare dati nei data lake. Inoltre, puoi eseguire ricerche e query immediatamente nei dati catalogati utilizzando Amazon Athena, Amazon EMR e Amazon Redshift Spectrum.

AWS Glue consolida le principali funzionalità di integrazione dei dati in un singolo servizio. Tali funzionalità includono rilevamento dati, ETL moderno, pulizia, trasformazione e catalogazione a livello centralizzato. È anche serverless, per cui non esiste alcuna infrastruttura da gestire. Con un supporto flessibile per tutti i carichi di lavoro come ETL, ELT e streaming in un unico servizio, AWS Glue supporta gli utenti tra vari carichi di lavoro e tipi di utenti.

AWS Glue, inoltre, semplifica l'integrazione dei dati nell'architettura. Si integra con i servizi AWS di analisi e i data lake Amazon S3. AWS Gluedispone di interfacce di integrazione e strumenti per la creazione di lavori facili da usare per tutti gli utenti, dagli sviluppatori agli utenti aziendali, con soluzioni su misura per diverse competenze tecniche.

Grazie alla scalabilità on demand, AWS Glue è utile per concentrarsi su attività di elevato valore che massimizzano il valore dei dati. È scalabile per qualunque dimensione di dati e supporta tutti i tipi di dati e varianti di schemi. Per aumentare l'agilità e ottimizzare i costi, AWS Glue offre disponibilità e fatturazione integrate elevate. pay-as-you-go

Per informazioni sui prezzi, consulta Prezzi di AWS Glue.

AWS Glue Studio

AWS Glue Studio è un'interfaccia grafica che facilita la creazione, l'esecuzione e il monitoraggio di processi di integrazione dati in AWS Glue. Puoi comporre visivamente flussi di lavoro di trasformazione dei dati ed eseguirli con facilità sul motore ETL serverless basato su Apache Spark di AWS Glue.

Con AWS Glue Studio, puoi creare e gestire processi di raccolta, trasformazione e pulizia di dati. Puoi utilizzare AWS Glue Studio anche per risolvere problemi e modificare script di processi.

Caratteristiche di AWS Glue

Le funzioni di AWS Glue si dividono in tre categorie principali:

  • Rilevamento e organizzazione dei dati

  • Trasformazione, preparazione e pulizia dei dati per l'analisi

  • Creazione e monitoraggio di pipeline di dati

Rilevamento e organizzazione dei dati

  • Unifica e cerca in più archivi di dati: archivia, indicizza e cerca su più fonti di dati e sink catalogando tutti i tuoi dati. AWS

  • Rilevamento automatico dei dati: utilizzo dei crawler AWS Glue per la deduzione automatica delle informazioni degli schemi e l'integrazione di tali informazioni in AWS Glue Data Catalog.

  • Gestione di schemi e autorizzazioni: convalida e controllo dell'accesso a database e tabelle.

  • Connettiti a un'ampia varietà di fonti di dati: accedi a più fonti di dati, sia in locale che in locale AWS, utilizzando AWS Glue le connessioni per creare il tuo data lake.

Trasformazione, preparazione e pulizia dei dati per l'analisi

  • Trasforma visivamente i dati con un'interfaccia Job Canvas: definisci il processo ETL nel Visual Job Editor e genera automaticamente il codice per estrarre, trasformare e caricare i dati.

  • Creazione di complesse pipeline ETL con una semplice pianificazione del processo: richiamo di processi AWS Glue in base a un programma, on demand o in base a un evento.

  • Pulizia e trasformazione dei dati in streaming in transito: possibilità di consumo dati continuo e pulizia e trasformazione dei dati in transito. In tal modo, i dati sono disponibili per l'analisi in pochi secondi nell'archivio dei dati di destinazione.

  • Deduplicazione e pulizia dei dati con machine learning integrato: pulizia e preparazione dei dati per l'analisi senza diventare esperti di machine learning, utilizzando la funzione FindMatches. Questa funzione deduplica e trova registri non perfettamente corrispondenti tra loro.

  • Notebook di processo integrati: i notebook di processo AWS Glue forniscono notebook serverless con una configurazione minima in AWS Glue, per poter cominciare rapidamente.

  • Modifica, debug e verifica del codice ETL: con le sessioni interattive di AWS Glue, puoi esplorare e preparare i dati in modo interattivo. Puoi esplorare, sperimentare ed elaborare i dati in modo interattivo utilizzando l'IDE o il notebook di tua scelta.

  • Definizione, rilevamento e correzione di dati sensibili: il rilevamento dei dati sensibili di AWS Glue consente di definire, identificare ed elaborare dati sensibili nella pipeline di dati e nel data lake.

Creazione e monitoraggio di pipeline di dati

  • Scalabilità automatica in base al carico di lavoro: aumento o riduzione delle risorse in modo dinamico in base al carico di lavoro. In tal modo, i processi vengono assegnati agli operatori solo quando necessario.

  • Automatizzazione di processi con trigger basati su eventi: avvio di crawler o processi AWS Glue con trigger basati su eventi e progettazione di una catena di percorsi e crawler dipendenti.

  • Esegui e monitora i processi: esegui i processi AWS Glue con il motore che preferisci, Spark o Ray. Monitorali con strumenti di monitoraggio automatizzati, approfondimenti sull'esecuzione dei processi AWS Glue e AWS CloudTrail. Migliora il monitoraggio dei processi supportati da Spark con l'interfaccia utente di Apache Spark.

  • Definizione di flussi di lavoro per attività ETL e di integrazione: definizione di flussi di lavoro per ETL e attività di integrazione per più crawler, processi e trigger.

Scopri di più sulle innovazioni in AWS Glue

Scopri le ultime innovazioni AWS Glue e scopri in che modo i clienti utilizzano AWS Glue per consentire la preparazione dei dati in modalità self-service in tutta l'organizzazione.

Scopri come i clienti AWS Glue vanno oltre la configurazione tradizionale e come si configurano AWS Glue per il monitoraggio del lavoro e delle prestazioni.

Nozioni di base su AWS Glue

Ti consigliamo di iniziare con le sezioni seguenti:

Accesso a AWS Glue

Puoi creare, visualizzare e gestire i processi AWS Glue utilizzando una qualunque delle interfacce seguenti:

  • Console AWS Glue: fornisce un'interfaccia web per la creazione, la visualizzazione e la gestione di processi AWS Glue. Per accedere alla console, consulta AWS Glue.

  • AWS Glue Studio: fornisce un'interfaccia grafica per la creazione e la modifica dei processi AWS Glue in modo visivo. Per ulteriori informazioni, consulta Cos'è AWS Glue Studio.

  • AWS Gluesezione della Guida di AWS CLI riferimento: fornisce AWS CLI comandi utilizzabili conAWS Glue. Per ulteriori informazioni, consulta la AWS CLI Documentazione di riferimento per AWS Glue.

  • AWS GlueAPI: fornisce una documentazione di riferimento dell'API completa per gli sviluppatori. Per ulteriori informazioni, consulta API AWS Glue.

Gli utenti di AWS Glue utilizzano anche:

  • AWS Lake Formation : un servizio costituito da un livello di autorizzazione che fornisce un controllo granulare fine dell'accesso alle risorse in AWS Glue Data Catalog.

  • AWS Glue DataBrew— Uno strumento visivo di preparazione dei dati che è possibile utilizzare per pulire e normalizzare i dati senza scrivere alcun codice.