AWS Glue Data Catalog - AWS Präskriptive Leitlinien

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

AWS Glue Data Catalog

Das AWS Glue Data Catalogist ein zentralisiertes Metadaten-Repository für all Ihre Datenbestände aus verschiedenen Datenquellen. Es bietet eine einheitliche Oberfläche zum Speichern und Abfragen von Informationen zu Datenformaten, Schemas und Quellen. Wenn ein AWS Glue ETL-Job ausgeführt wird, verwendet er diesen Katalog, um Informationen zu den Daten zu verstehen und sicherzustellen, dass sie korrekt transformiert werden.

Der AWS Glue Data Catalogbesteht aus den folgenden Komponenten:

  • Datenbanken und Tabellen

  • Crawler und Classifier

  • Verbindungen

  • Schema Registry

AWS Glue Datenbanken und Tabellen

Die AWS Glue Data Catalogist in Datenbanken und Tabellen unterteilt, um eine logische Struktur für das Speichern und Verwalten von Metadaten bereitzustellen. Diese Struktur unterstützt eine präzise Datenzugriffskontrolle auf Tabellen- oder Datenbankebene mithilfe von AWS Identity and Access Management (IAM-) Richtlinien.

Eine AWS Glue Datenbank kann viele Tabellen enthalten, und jede Tabelle muss einer einzelnen Datenbank zugeordnet sein. Diese Tabellen enthalten Verweise auf die eigentlichen Daten, die in einer der verschiedenen AWS Glue unterstützten Datenquellen gespeichert werden können. AWS Glue Tabellen speichern auch wichtige Metadaten wie Spaltennamen, Datentypen und Partitionsschlüssel.

Es gibt verschiedene Methoden zum Erstellen einer Tabelle in AWS Glue:

  • AWS Glue Crawler

  • AWS Glue ETL-Job

  • AWS Glue Konsole

  • CreateTableBetrieb in der AWS Glue API

  • AWS CloudFormation Vorlage

  • AWS Cloud Development Kit (AWS CDK)

  • Ein migrierter Apache Hive-Metastore

AWS Glue Crawler und Klassifikatoren

Ein AWS Glue Crawler erkennt und extrahiert automatisch Metadaten aus einem Datenspeicher und aktualisiert sie dann entsprechend. AWS Glue Data Catalog Der Crawler stellt eine Verbindung zum Datenspeicher her, um das Schema der Daten abzuleiten. Anschließend erstellt oder aktualisiert er Tabellen im Datenkatalog mit den gefundenen Schemainformationen. Ein Crawler kann sowohl dateibasierte als auch tabellenbasierte Datenspeicher durchsuchen. Weitere Informationen zu unterstützten Datenspeichern finden Sie unter Welche Datenspeicher kann ich crawlen?

Der Crawler verwendet Klassifikatoren, um das Format von Daten genau zu erkennen und zu bestimmen, wie sie verarbeitet werden sollen. Standardmäßig verwendet der Crawler eine Reihe gängiger integrierter Klassifikatoren, die von bereitgestellt werden. Sie können AWS Glue jedoch auch benutzerdefinierte Klassifikatoren für bestimmte Anwendungsfälle schreiben.

AWS Glue Verbindungen

Sie können AWS Glue Verbindungen verwenden, um Verbindungsparameter zu definieren, mit denen Sie eine Verbindung AWS Glue zu verschiedenen Datenquellen herstellen können. Das Hinzufügen von Verbindungen zentralisiert und vereinfacht die Konfiguration, die für die Verbindung mit diesen Quellen erforderlich ist.

Beim Definieren einer Verbindung geben Sie den Verbindungstyp, den Verbindungsendpunkt und alle erforderlichen Anmeldeinformationen an. Nachdem eine Verbindung definiert wurde, kann sie von mehreren AWS Glue Jobs und Crawlern wiederverwendet werden. Die Verwendung von Verbindungen mit AWS Glue reduziert die Notwendigkeit, wiederholt dieselben Verbindungsinformationen wie Anmeldeinformationen oder Virtual Private Cloud (VPC) -IDs einzugeben.

AWS Glue Schemaregistrierung

Die AWS Glue Schemaregistry bietet einen zentralen Ort für die Verwaltung und Durchsetzung von Datenstromschemas. Es ermöglicht unterschiedlichen Systemen wie Datenproduzenten und Datenverbrauchern, die gemeinsame Nutzung eines Schemas für die Serialisierung und Deserialisierung. Die gemeinsame Nutzung eines Schemas hilft diesen Systemen, effektiv zu kommunizieren und Fehler bei der Transformation zu vermeiden.

Die Schemaregistry stellt sicher, dass nachgelagerte Datenverbraucher mit Änderungen umgehen können, die im Upstream vorgenommen wurden, da sie das erwartete Schema kennen. Sie unterstützt die Schemaentwicklung, sodass sich ein Schema im Laufe der Zeit ändern kann und gleichzeitig die Kompatibilität mit früheren Versionen des Schemas gewahrt bleibt.

Die Schema Registry lässt sich in viele AWS Dienste integrieren, darunter Amazon Kinesis Data Streams, Firehose und Amazon Managed Streaming for Apache Kafka. Beispiele für Anwendungsfälle und Integrationen finden Sie unter Integration mit Schema Registry. AWS Glue