AWS Glue Data Catalog - AWS Guida prescrittiva

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

AWS Glue Data Catalog

AWS Glue Data CatalogSi tratta di un archivio di metadati centralizzato per tutte le risorse di dati provenienti da varie fonti di dati. Fornisce un'interfaccia unificata per archiviare e interrogare informazioni su formati di dati, schemi e fonti. Quando viene eseguito, un job AWS Glue ETL utilizza questo catalogo per comprendere le informazioni sui dati e garantire che vengano trasformati correttamente.

AWS Glue Data CatalogÈ composto dai seguenti componenti:

  • Database e tabelle

  • Crawler e classificatori

  • Connessioni

  • Registro degli schemi

AWS Glue database e tabelle

AWS Glue Data Catalogè organizzato in database e tabelle per fornire una struttura logica per l'archiviazione e la gestione dei metadati. Questa struttura supporta un controllo preciso dell'accesso ai dati a livello di tabella o database utilizzando politiche AWS Identity and Access Management (IAM).

Un AWS Glue database può contenere molte tabelle e ogni tabella deve essere associata a un singolo database. Queste tabelle contengono riferimenti ai dati effettivi, che possono essere archiviati in una qualsiasi delle varie fonti di dati AWS Glue supportate. AWS Glue le tabelle memorizzano anche metadati essenziali come nomi di colonne, tipi di dati e chiavi di partizione.

Esistono diversi metodi per creare una tabella in: AWS Glue

  • AWS Glue crawler

  • AWS Glue lavoro ETL

  • AWS Glue console

  • CreateTablefunzionamento nell'AWS Glue API

  • AWS CloudFormation modello

  • AWS Cloud Development Kit (AWS CDK)

  • Un metastore migrato di Apache Hive

AWS Glue crawler e classificatori

Un AWS Glue crawler rileva ed estrae automaticamente i metadati da un archivio dati, quindi li aggiorna di conseguenza. AWS Glue Data Catalog Il crawler si connette al data store per dedurre lo schema dei dati. Quindi crea o aggiorna le tabelle all'interno del Data Catalog con le informazioni sullo schema che ha scoperto. Un crawler può eseguire il crawling di datastore basati su file e su tabelle. Per ulteriori informazioni sugli archivi dati supportati, consulta Quali archivi di dati posso sottoporre a scansione?

Il crawler utilizza classificatori per riconoscere con precisione il formato dei dati e determinare come devono essere elaborati. Per impostazione predefinita, il crawler utilizza una serie di classificatori incorporati comuni forniti da AWS Glue, ma puoi anche scrivere classificatori personalizzati per gestire casi d'uso specifici.

AWS Glue connessioni

È possibile utilizzare AWS Glue le connessioni per definire i parametri di connessione che consentono AWS Glue di connettersi a varie fonti di dati. L'aggiunta di connessioni centralizza e semplifica la configurazione richiesta per connettersi a queste fonti.

Quando si definisce una connessione, si specifica il tipo di connessione, l'endpoint di connessione e le eventuali credenziali richieste. Una volta definita, una connessione può essere riutilizzata da più AWS Glue job e crawler. L'utilizzo di connessioni con AWS Glue riduce la necessità di inserire ripetutamente le stesse informazioni di connessione, come le credenziali di accesso o gli ID del cloud privato virtuale (VPC).

AWS Glue Registro degli schemi

Il registro degli AWS Glue schemi fornisce una posizione centralizzata per la gestione e l'applicazione degli schemi dei flussi di dati. Consente a sistemi diversi, come produttori e consumatori di dati, di condividere uno schema per la serializzazione e la deserializzazione. La condivisione di uno schema aiuta questi sistemi a comunicare in modo efficace ed evitare errori durante la trasformazione.

Lo Schema Registry garantisce che i consumatori di dati a valle possano gestire le modifiche apportate a monte, poiché conoscono lo schema previsto. Supporta l'evoluzione dello schema, in modo che uno schema possa cambiare nel tempo mantenendo la compatibilità con le versioni precedenti dello schema.

Lo Schema Registry si integra con molti AWS servizi, tra cui Amazon Kinesis Data Streams, Firehose e Amazon Managed Streaming for Apache Kafka. Per esempi di casi d'uso e integrazioni, consulta Integrazione con Schema Registry. AWS Glue