AWS Glue Anwendungsfälle und allgemeine Schritte

Aurora PostgreSQL-kompatible Integration mit AWS Glue

AWS Glue ist ein vollständig verwalteter ETL-Service (Extrahieren, Transformieren und Laden) zum Vorbereiten und Laden von Daten für Analysen. Sie können die Amazon Aurora PostgreSQL-Compatible Edition für alle Datenverarbeitungs- und Analyse-Workflows integrieren AWS Glue .

AWS Glue Anwendungsfälle und allgemeine Schritte

Die Integration von Aurora PostgreSQL-kompatibel mit AWS Glue unterstützt die folgenden Anwendungsfälle:

Data Warehousing und Analytics ‒ Nutzen Sie die AWS Glue Integration mit Aurora PostgreSQL Compatible, um Data Warehousing- und Analyselösungen zu erstellen. AWS Glue kann Daten aus Aurora PostgreSQL-kompatiblen Datenbanken extrahieren und nach Ihren Anforderungen transformieren. Anschließend AWS Glue können die transformierten Daten für erweiterte Analysen und Berichte in ein Data Warehouse wie Amazon Redshift oder Amazon Athena geladen werden.
Erstellung von Data Lakes ‒ Wird verwendet AWS Glue , um Daten aus Aurora PostgreSQL-kompatibel zu extrahieren und in einen in Amazon S3 gespeicherten Data Lake zu laden. Sie können diesen Data Lake dann für verschiedene Zwecke verwenden, z. B. für maschinelles Lernen, Datenexploration oder die Versorgung anderer Analysesysteme.
ETL-Pipelines ‒ Verwenden Sie den AWS Glue serverlosen ETL-Service, um robuste Daten-Pipelines zu erstellen. Sie können Daten aus Aurora PostgreSQL-kompatibel extrahieren und komplexe Transformationen mithilfe von Apache Spark oder durchführen. PySpark Sie können die verarbeiteten Daten in ein Ziel wie Amazon S3 oder Amazon Redshift laden, oder Sie können sie wieder in Aurora PostgreSQL-Compatible laden.
Datenkatalogisierung und Metadatenverwaltung ‒ Dient AWS Glue Data Catalog zum automatischen Crawlen und Katalogisieren von Metadaten aus Aurora PostgreSQL-kompatiblen Datenbanken und -Tabellen. AWS-Services wie Amazon Athena und Amazon Redshift Spectrum können dieses zentralisierte Metadaten-Repository zum Abfragen und Analysieren von Daten verwenden.
Datenvorbereitung für maschinelles Lernen ‒ Wird verwendet AWS Glue , um Daten aus Aurora PostgreSQL-kompatibel für Machine-Learning-Workloads (ML) vorzubereiten. Die verarbeiteten Daten können in Amazon SageMaker AI oder andere ML-Services geladen werden, um Modelle zu trainieren und bereitzustellen.
Datenmigration und Replikation ‒ AWS Database Migration Service (AWS DMS) ist zwar der primäre Service für Datenbankmigrationen, Sie können ihn aber auch verwenden. AWS Glue Migrieren oder replizieren Sie Daten aus Aurora PostgreSQL-kompatiblen Daten in andere Datenspeicher wie Amazon S3, Amazon Redshift oder sogar andere Datenbank-Engines.

Ihr Unternehmen kann die Leistungsfähigkeit von AWS Datenintegrations- und Analysediensten mit der Skalierbarkeit, Leistung und Kompatibilität von Aurora PostgreSQL-kompatibel nutzen. Mit diesen Anwendungsfällen können Sie robuste Daten-Pipelines aufbauen, komplexe Datentransformationen durchführen und andere AWS-Services für erweiterte Analysen und Berichte integrieren.

Verwenden Sie die folgenden allgemeinen Schritte AWS Glue, um Aurora PostgreSQL-kompatibel mit zu integrieren:

Melden Sie sich bei der an AWS-Managementkonsole, navigieren Sie zur AWS Glue Konsole und erstellen Sie eine. AWS Glue Data Catalog

Data Catalog ist ein zentrales Repository, das Metadaten zu Ihren Datenquellen speichert, einschließlich Aurora PostgreSQL-kompatibler Datenbanken und Tabellen.
Stellen Sie eine Verbindung her. AWS Glue

Navigieren Sie zur Seite Verbindungen und stellen Sie eine AWS Glue Verbindung her. Wählen Sie Aurora PostgreSQL-kompatibel als Verbindungstyp und geben Sie den Aurora PostgreSQL-kompatiblen Cluster-Endpunkt, den Datenbanknamen sowie Ihren Datenbank-Benutzernamen und Ihr Passwort an.
Durchforsten Sie die Aurora PostgreSQL-kompatible Datenquelle.

Navigieren Sie zum Abschnitt Crawler und erstellen Sie einen Crawler, der so konfiguriert ist, dass er die von Ihnen erstellte Verbindung verwendet. Geben Sie die Datenbank- und Tabellennamen an, die Sie crawlen und in den Datenkatalog aufnehmen möchten, und führen Sie den Crawler aus.
Erstellen Sie einen AWS Glue ETL-Job und führen Sie ihn aus.

Navigieren Sie zum Abschnitt Jobs und erstellen Sie einen ETL-Job, um mithilfe des Datenkatalogs auf Daten aus der Aurora PostgreSQL-kompatiblen Datenbank zuzugreifen und diese abzufragen. Wählen Sie den Jobtyp entsprechend Ihren Anforderungen aus. Führen Sie im ETL-Jobskript alle erforderlichen Transformationen oder Verarbeitungen durch und geben Sie den Zielort für die verarbeiteten Daten an. Der Zielort kann Amazon S3, Amazon Redshift oder eine andere Aurora PostgreSQL-kompatible Datenbank sein.

Eine ausführliche Anleitung finden Sie in der Dokumentation.AWS Glue

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

AWS DMS Integration

Amazon-Redshift-Integration