Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
AWS Glue verwendet andere AWS Dienste, um Ihre ETL-Jobs (Extrahieren, Transformieren und Laden) zu orchestrieren, um Data Warehouses und Data Lakes aufzubauen und Output-Streams zu generieren. AWS Glue ruft API-Operationen auf, um Ihre Daten zu transformieren, Laufzeitprotokolle zu erstellen, Ihre Joblogik zu speichern und Benachrichtigungen zu erstellen, mit denen Sie Ihre Jobausführungen überwachen können. Das Tool AWS Glue Die Konsole verbindet diese Dienste zu einer verwalteten Anwendung, sodass Sie sich auf die Erstellung und Überwachung Ihrer ETL-Arbeit konzentrieren können. Die Konsole führt in Ihrem Namen Verwaltungs- und Auftragsentwicklungsoperationen durch. Sie geben Anmeldeinformationen und andere Eigenschaften an AWS Glue um auf Ihre Datenquellen zuzugreifen und in Ihre Datenziele zu schreiben.
AWS Glue kümmert sich um die Bereitstellung und Verwaltung der Ressourcen, die für die Ausführung Ihres Workloads erforderlich sind. Sie müssen die Infrastruktur für ein ETL-Tool nicht erstellen, weil AWS Glue macht es für Sie. Wenn Ressourcen benötigt werden, um die Startzeit zu reduzieren, AWS Glue verwendet eine Instanz aus seinem warmen Instanzenpool, um Ihren Workload auszuführen.
Mit AWS Glue, Sie erstellen Jobs mithilfe von Tabellendefinitionen in Ihrem Datenkatalog. Jobs bestehen aus Skripten, die die Anweisungen enthalten, mit denen die gewünschten Datentransformationsaufgaben ausgeführt werden. Sie verwenden Auslöser, um Aufträge entweder nach einem Zeitplan oder als Ergebnis eines bestimmten Ereignisses zu initiieren. Sie legen fest, wo sich Ihre Zieldaten befinden und welche Quelldaten Ihr Ziel befüllen. Basierend auf Ihren Eingaben AWS Glue transformiert Ihre Daten vom Quell- in das Zielformat. Alternativ können Sie auch benutzerdefinierte Skripts in der AWS Glue Konsole oder API, um Ihre Daten gemäß Ihren spezifischen Anforderungen zu verarbeiten.
Datenquellen und -ziele
AWS Glue for Spark ermöglicht es Ihnen, Daten aus mehreren Systemen und Datenbanken zu lesen und zu schreiben, darunter:
-
Amazon S3
-
Amazon-DynamoDB
-
Amazon Redshift
-
Amazon Relational Database Service (Amazon RDS)
-
Über JDBC zugängliche Datenbanken von Drittanbietern
-
MongoDB und Amazon DocumentDB (mit MongoDB-Kompatibilität)
-
Andere Marketplace-Konnektoren und Apache-Spark-Plugins
Datenströme
AWS Glue for Spark kann Daten aus den folgenden Systemen streamen:
-
Amazon Kinesis Data Streams
-
Apache Kafka
AWS Glue ist in mehreren AWS Regionen verfügbar. Weitere Informationen finden Sie unter AWS Regionen und Endpunkte in der Allgemeine Amazon Web Services-Referenz.
Themen
Isolierte, Serverless-ETL-Aufträge
AWS Glue führt Ihre ETL-Jobs in einer serverlosen Umgebung mit Engine, Spark oder Ray Ihrer Wahl aus. AWS Glue führt diese Jobs auf virtuellen Ressourcen aus, die es in seinem eigenen Dienstkonto bereitstellt und verwaltet.
AWS Glue ist für Folgendes konzipiert:
Separieren von Kundendaten.
Schützen von Kundendaten während der Übertragung und im Speicherzustand.
Zugriff nur dann auf Kundendaten, wenn dies aufgrund von Kundenanfragen erforderlich ist (über temporäre, auf einen bestimmten Umfang beschränkte Berechtigungsnachweise oder mit Zustimmung eines Kunden zu IAM-Rollen in seinem Konto).
Bei der Bereitstellung eines ETL-Auftrags stellen Sie Eingangsdatenquellen und Ausgangsdatenziele in Ihrer Virtual Private Cloud (VPC) zur Verfügung. Zusätzlich stellen Sie die IAM-Rolle, die VPC-ID, die Subnetz-ID und die Sicherheitsgruppe zur Verfügung, die für den Zugriff auf Datenquellen und -ziele benötigt werden. Für jedes Tupel (Kundenkonto-ID, IAM-Rolle, Subnetz-ID und Sicherheitsgruppe) AWS Glue erstellt eine neue Umgebung, die auf Netzwerk- und Managementebene von allen anderen Umgebungen in Ihrem AWS Glue Dienstkonto.
Sie erstellen und konfigurieren AWS Glue Ressourcen wie Datenkataloge, Jobs und Crawler in Ihrem AWS Konto. Diese Ressourcen werden dann der IAM-Rolle und den Netzwerkeinstellungen (Subnetz und Sicherheitsgruppe) zugeordnet, die Sie während des Erstellungsprozesses angeben.
AWS Glue erstellt elastische Netzwerkschnittstellen in Ihrem Subnetz mithilfe privater IP-Adressen. Aufträge nutzen diese Elastic-Network-Schnittstellen, um auf Ihre Datenquellen und Datenziele zuzugreifen. Der eingehende, ausgehende und innerhalb der Job-Run-Umgebung wird durch Ihre VPC- und Netzwerkrichtlinien geregelt, mit einer Ausnahme: Aufrufe an AWS Glue Bibliotheken können den Datenverkehr weiterleiten an AWS Glue API-Operationen über die AWS Glue VPC. Alle AWS Glue API-Aufrufe werden protokolliert. Somit können Dateneigentümer den API-Zugriff überprüfen, indem sie die Aktivierung aktivieren AWS CloudTrail, wodurch Auditprotokolle an Ihr Konto gesendet werden.
AWS Glue verwaltete Umgebungen, in denen Ihre ETL-Jobs ausgeführt werden, werden mit denselben Sicherheitspraktiken geschützt, denen auch andere AWS Dienste folgen. Einen Überblick über die Verfahren und die gemeinsamen Sicherheitsaufgaben finden Sie im Whitepaper Einführung in AWS Sicherheitsprozesse.