Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Herstellen einer Verbindung zu Daten
Eine AWS Glue Verbindung ist ein Datenkatalogobjekt, das Anmeldeinformationen, URI Zeichenfolgen, Virtual Private Cloud (VPC) -Informationen und mehr für einen bestimmten Datenspeicher speichert. AWS Glue Crawler, Jobs und Entwicklungsendpunkte verwenden Verbindungen, um auf bestimmte Arten von Datenspeichern zuzugreifen. Sie können Verbindungen sowohl für Quellen als auch für Ziele verwenden und dieselbe Verbindung für mehrere Crawler- oder Extrahierungs-, Transformations- und Load () ETL -Jobs wiederverwenden.
Die neueste Version des AWS Glue Verbindungsschemas bietet eine einheitliche Möglichkeit, Datenverbindungen zwischen AWS Diensten und Anwendungen wie AWS Glue Amazon Athena, und Amazon SageMaker AI Unified Studio zu verwalten.
Übersicht zur Verwendung von Connectors und Verbindungen
Eine Verbindung enthält die Eigenschaften, die für das Verbinden mit einem bestimmten Datenspeicher erforderlich sind. Wenn Sie eine Verbindung erstellen, wird sie im AWS Glue Data Catalog gespeichert. Sie wählen einen Connector aus und erstellen dann eine Verbindung basierend auf diesem Connector.
Sie können Konnektoren für Datenspeicher abonnieren, die nicht nativ unterstützt werden AWS Marketplace, und diese Konnektoren dann beim Erstellen von Verbindungen verwenden. Entwickler können auch eigene Connectors erstellen und sie beim Erstellen von Verbindungen verwenden.
Anmerkung
Verbindungen, die mit benutzerdefinierten Verbindungen oder AWS Marketplace Konnektoren in erstellt wurden, AWS Glue Studio werden in der AWS Glue Konsole mit dem Typ auf angezeigt. UNKNOWN
Die folgenden Schritte beschreiben den Gesamtprozess der Verwendung von Konnektoren in AWS Glue Studio:
-
Abonnieren Sie einen Connector in AWS Marketplace oder entwickeln Sie Ihren eigenen Connector und laden Sie ihn auf hoch AWS Glue Studio. Weitere Informationen finden Sie unter Hinzufügen von Connectors zu AWS Glue Studio.
-
Überprüfen Sie die Nutzungsinformationen des Connectors. Sie finden diese Informationen auf der Registerkarte Usage (Verwendung) auf der Produktseite des Connectors. Wenn Sie beispielsweise auf dieser Produktseite, AWS Glue Connector für Google
, auf den Tab Nutzung klicken BigQuery, finden Sie im Abschnitt Zusätzliche Ressourcen einen Link zu einem Blog über die Verwendung dieses Connectors. -
Verbindung erstellen Sie wählen aus, welcher Connector verwendet werden soll, und geben zusätzliche Informationen für die Verbindung an, z. B. Anmeldeinformationen, URI Zeichenfolgen und Informationen zur virtuellen privaten Cloud (VPC). Weitere Informationen finden Sie unter Erstellen von Verbindungen für Connectors.
-
Erstellen Sie eine IAM Rolle für Ihren Job. Der Job setzt die Berechtigungen der IAM Rolle voraus, die Sie bei der Erstellung angeben. Diese IAM Rolle muss über die erforderlichen Berechtigungen verfügen, um sich bei Ihren Datenspeichern zu authentifizieren, Daten aus ihnen zu extrahieren und Daten in diese zu schreiben.
-
Erstellen Sie einen ETL Job und konfigurieren Sie die Datenquelleneigenschaften für Ihren ETL Job. Geben Sie die Verbindungsoptionen und Authentifizierungsinformationen an, wie vom benutzerdefinierten Connector-Anbieter angewiesen. Weitere Informationen finden Sie unter Erstellen von Aufträgen mit benutzerdefinierten Connectors.
-
Passen Sie Ihren ETL Job an, indem Sie Transformationen oder zusätzliche Datenspeicher hinzufügen, wie unter beschriebenStarten von visuellen ETL Jobs in AWS Glue Studio.
-
Wenn Sie einen Konnektor für das Datenziel verwenden, konfigurieren Sie die Eigenschaften des Datenziels für Ihren ETL Job. Geben Sie die Verbindungsoptionen und Authentifizierungsinformationen an, wie vom benutzerdefinierten Connector-Anbieter angewiesen. Weitere Informationen finden Sie unter Erstellen von Aufträgen mit benutzerdefinierten Connectors.
-
Passen Sie die Umgebung der Auftragsausführung an, indem Sie Auftragseigenschaften konfigurieren, wie unter Ändern der Auftragseigenschaften beschrieben.
-
Führen Sie den Auftrag aus.
Vereinheitlichte Verbindungen
Mit Unified Connections können Sie eine Datenverbindung einmal konfigurieren und sie kann dann von verschiedenen Diensten für Anwendungsfälle in den Bereichen Datenintegration, Datenanalyse und Datenwissenschaft wiederverwendet werden. Sie können Datenverbindungen über die AWS Glue Konsole oder benutzerdefinierte Anwendungen mithilfe einheitlicher Datenkonnektivität erstellen. APIs Mit Unified Connections können Sie mithilfe einer Verbindungskonfigurationsvorlage, die für mehrere Dienste standardisiert ist, eine Verbindung zu einer Datenquelle einrichten. Diese Dienste (AWS Glue Amazon SageMaker AI Unified Studio und Amazon Athena) können dieselbe Verbindung mit der richtigen Berechtigungskonfiguration gemeinsam nutzen und wiederverwenden.
AWS Glue Studio erstellt jetzt standardmäßig einheitliche Verbindungen. In der AWS Glue Konsole können Sie die Version der Verbindung in der Verbindungstabelle auf der Verbindungsseite, auf der Verbindungsdetailseite und in der Verbindungstabelle auf der Jobdetailseite sehen.
Die Verbindungsversion ist unter Verbindungsdetails sichtbar:
Die Verbindungsversion ist auch sichtbar, wenn Sie alle Ihre Verbindungen anzeigen.
Schließlich ist die Verbindungsversion auf der Registerkarte Jobdetails für einen Job sichtbar.
Bei Verbindungen der Version 2 stehen Ihnen die folgenden erweiterten Datenkonnektivitätsfunktionen zur Verfügung:
-
Erkennung von Verbindungstypen: Support für das Erstellen von Verbindungen mithilfe standardisierter Vorlagen. AWS Glue erkennt automatisch die Verbindungstypen, auf die Sie zugreifen können, sowie die erforderlichen und optionalen Eingaben für einen bestimmten Verbindungstyp.
-
Wiederverwendbarkeit: Verbindungsdefinitionen, die in allen AWS Datenverarbeitungsmodulen und Tools wie AWS Glue Amazon Athena, und wiederverwendet werden können. Amazon SageMaker AI Verbindungen enthalten jetzt AthenaProperties,, PythonProperties die es ermöglichen SparkProperties, zusätzlich zu den allgemeinen Eigenschaften, die in gespeichert sind, spezifische Verbindungseigenschaften für die Rechenumgebung oder den Dienst anzugeben. ConnectionProperties Athena erstellt jetzt Verbindungen, AWS Glue indem sie Athena-spezifische Eigenschaften in der AthenaProperties Eigenschaftenübersicht angibt.
-
Datenvorschau: Möglichkeit, Metadaten zu durchsuchen und eine Vorschau von Daten aus verbundenen Quellen anzuzeigen.
-
Konnektor-Metadaten: Wiederverwendbare Verbindungen können verwendet werden, um Tabellenmetadaten zu ermitteln.
-
Mit Diensten verknüpfte Geheimnisse: Benutzer können in der
CreateConnection
Anfrage die erforderlichenOAuth, grundlegenden oder benutzerdefinierten Authentifizierungsdaten angeben. Das CreateConnection API erstellt ein Service Linked Secret in Ihrem Konto und speichert die Anmeldeinformationen in Ihrem Namen.
Überlegungen
Beachten Sie beim Erstellen einer einheitlichen Verbindung für Datenquellen die folgenden Unterschiede:
-
Wenn Sie eine einheitliche Verbindung über herstellen AWS Glue Studio, werden Benutzeranmeldeinformationen AWS Secrets Manager nicht in der Verbindung selbst gespeichert. Das bedeutet, dass Jobs jetzt Zugriff auf Secrets Manager benötigen.
-
Wenn Jobs in einem ausgeführt werdenVPC, benötigen sie entweder einen VPC Endpunkt oder ein NAT Gateway für den Zugriff AWS Secrets Manager und Secure Token Service (STS), was zusätzliche Kosten verursacht.
-
Für bestimmte Datenquellen (Redshift, SQL Server, MySQL, Oracle, PostgreSQL) AWS Glue Studio erfordert die Erstellung einer einheitlichen Verbindung über Zugriff AWS STS auf und. AWS Secrets Manager Dies ist erforderlich, um eine sichere Verbindung herzustellen und die erforderlichen Anmeldeinformationen für den Zugriff auf diese Datenquellen in Ihrer Virtual Private Cloud () VPC abzurufen.
-
Um eine einheitliche Verbindung herzustellen, AWS Glue Studio benötigen Sie eine IAM Rolle mit Berechtigungen für den Zugriff auf AWS Secrets Manager und die Verwaltung von VPC Ressourcen (falls Sie eine verwendenVPC):
Verwalter von Geheimnissen: GetSecretValue
Verwalter von Geheimnissen: PutSecretValue
Verwalter von Geheimnissen: DescribeSecret
ec2: CreateNetworkInterface
ec2: DeleteNetworkInterface
ec2: DescribeNetworkInterfaces