View a markdown version of this page

Integrazione compatibile con Aurora PostgreSQL con AWS Glue - AWS Guida prescrittiva

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Integrazione compatibile con Aurora PostgreSQL con AWS Glue

AWS Glue è un servizio di estrazione, trasformazione e caricamento (ETL) completamente gestito per la preparazione e il caricamento dei dati per l'analisi. Puoi integrarti AWS Glue con Amazon Aurora PostgreSQL Compatible Edition per qualsiasi flusso di lavoro di elaborazione e analisi dei dati.

AWS Glue casi d'uso e passaggi di alto livello

L'integrazione di Aurora PostgreSQL compatibile con supporta i seguenti casi d'uso: AWS Glue

  • Data warehousing e analisi ‒ Utilizza l' AWS Glue integrazione con Aurora, compatibile con PostgreSQL, per creare soluzioni di data warehousing e analisi. AWS Glue può estrarre dati da database Aurora compatibili con PostgreSQL e trasformarli in base alle tue esigenze. Quindi AWS Glue puoi caricare i dati trasformati in un data warehouse come Amazon Redshift o Amazon Athena per analisi e report avanzati.

  • Creazione di data lake ‒ Utilizzabile AWS Glue per estrarre dati da Aurora, compatibile con PostgreSQL e caricarli in un data lake archiviato in Amazon S3. È quindi possibile utilizzare questo data lake per vari scopi, come l'apprendimento automatico, l'esplorazione dei dati o l'alimentazione di altri sistemi analitici.

  • Pipeline ETL ‒ Utilizza il servizio ETL AWS Glue senza server per creare solide pipeline di dati. È possibile estrarre dati da Aurora, compatibile con PostgreSQL ed eseguire trasformazioni complesse utilizzando Apache Spark o. PySpark Puoi caricare i dati elaborati in una destinazione come Amazon S3 o Amazon Redshift, oppure puoi caricarli nuovamente in una versione compatibile con Aurora PostgreSQL.

  • Catalogazione dei dati e gestione dei metadati ‒ Utilizzabile per eseguire automaticamente AWS Glue Data Catalog la scansione e catalogare i metadati da database e tabelle compatibili con Aurora PostgreSQL. Servizi AWS come Amazon Athena e Amazon Redshift Spectrum possono utilizzare questo repository di metadati centralizzato per interrogare e analizzare i dati.

  • Preparazione dei dati per l'apprendimento automatico ‒ Da utilizzare AWS Glue per preparare i dati da Aurora PostgreSQL compatibili per carichi di lavoro di machine learning (ML). I dati elaborati possono essere caricati in Amazon SageMaker AI o altri servizi ML per la formazione e la distribuzione di modelli.

  • Migrazione e replica dei dati ‒ Sebbene AWS Database Migration Service (AWS DMS) sia il servizio principale per le migrazioni di database, puoi anche utilizzarlo. AWS Glue Migra o replica i dati da Aurora PostgreSQL compatibile con altri archivi di dati, come Amazon S3, Amazon Redshift o persino altri motori di database.

La tua organizzazione può sfruttare la potenza dei servizi di integrazione e analisi AWS dei dati con la scalabilità, le prestazioni e la compatibilità di Aurora PostgreSQL Compatible. Con questi casi d'uso, puoi creare solide pipeline di dati, eseguire trasformazioni di dati complesse e integrarli con altri per analisi e report avanzati. Servizi AWS

Per integrare Aurora PostgreSQL compatibile con AWS Glue, utilizza i seguenti passaggi di alto livello:

  1. Accedi a Console di gestione AWS, vai alla console e crea un. AWS Glue AWS Glue Data Catalog

    Data Catalog è un repository centrale che archivia i metadati sulle fonti di dati, inclusi database e tabelle compatibili con Aurora PostgreSQL.

  2. Crea una connessione. AWS Glue

    Vai alla pagina Connessioni e crea una AWS Glue connessione. Seleziona Aurora PostgreSQL Compatible come tipo di connessione e fornisci l'endpoint del cluster compatibile con Aurora PostgreSQL, il nome del database e il nome utente e la password del database.

  3. Esegui la scansione dell'origine dati Aurora compatibile con PostgreSQL.

    Vai alla sezione Crawler e crea un crawler configurato per utilizzare la connessione che hai creato. Specificate i nomi dei database e delle tabelle che desiderate scansionare e includere nel Data Catalog, quindi eseguite il crawler.

  4. Crea ed esegui un processo ETL AWS Glue .

    Vai alla sezione Jobs e crea un job ETL per accedere e interrogare i dati dal database Aurora compatibile con PostgreSQL utilizzando il Data Catalog. Scegli il tipo di lavoro in base alle tue esigenze. Nello script di lavoro ETL, eseguite le trasformazioni o le elaborazioni necessarie e specificate la posizione di destinazione per i dati elaborati. La posizione di destinazione può essere Amazon S3, Amazon Redshift o un altro database Aurora compatibile con PostgreSQL.

Per istruzioni dettagliate, consulta la documentazione.AWS Glue