Terminologie der Lake Formation - AWS Lake Formation

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Terminologie der Lake Formation

Im Folgenden sind einige wichtige Begriffe aufgeführt, auf die Sie in diesem Handbuch stoßen werden.

Datensee

Der Data Lake sind Ihre persistenten Daten, die in Amazon S3 gespeichert und von Lake Formation mithilfe eines Datenkatalogs verwaltet werden. Ein Data Lake speichert in der Regel Folgendes:

  • Strukturierte und unstrukturierte Daten

  • Rohdaten und transformierte Daten

Damit sich ein Amazon S3 S3-Pfad innerhalb eines Data Lake befindet, muss er bei Lake Formation registriert sein.

Datenzugriff

Lake Formation bietet sicheren und detaillierten Zugriff auf Daten durch ein neues Modell zur Gewährung und Widerruf von Berechtigungen, das die AWS Identity and Access Management (IAM) -Richtlinien erweitert.

Analysten und Datenwissenschaftler können das gesamte Portfolio an AWS Analyse- und Machine-Learning-Diensten wie Amazon Athena nutzen, um auf die Daten zuzugreifen. Die konfigurierten Sicherheitsrichtlinien von Lake Formation stellen sicher, dass Benutzer nur auf die Daten zugreifen können, für die sie autorisiert sind.

Hybrider Zugriffsmodus

Im hybriden Zugriffsmodus können Sie die katalogisierten Daten sichern und darauf zugreifen, indem Sie sowohl Lake Formation Formation-Berechtigungen als auch IAM- und Amazon S3 S3-Berechtigungen verwenden. Der hybride Zugriffsmodus ermöglicht es Datenadministratoren, Lake Formation Formation-Berechtigungen selektiv und inkrementell zu integrieren und sich dabei jeweils auf einen Data Lake-Anwendungsfall zu konzentrieren.

Blueprint

Ein Blueprint ist eine Datenverwaltungsvorlage, mit der Sie Daten einfach in einen Data Lake aufnehmen können. Lake Formation bietet mehrere Blueprints, jeweils für einen vordefinierten Quelltyp, z. B. eine relationale Datenbank oder AWS CloudTrail Protokolle. Aus einem Blueprint können Sie einen Workflow erstellen. Workflows bestehen aus AWS Glue Crawlern, Jobs und Triggern, die generiert werden, um das Laden und Aktualisieren von Daten zu orchestrieren. Blueprints verwenden die Datenquelle, das Datenziel und den Zeitplan als Eingabe für die Konfiguration des Workflows.

Workflow

Ein Workflow ist ein Container für eine Reihe verwandter AWS Glue Jobs, Crawler und Trigger. Sie erstellen den Workflow in Lake Formation und er wird im AWS Glue Service ausgeführt. Lake Formation kann den Status eines Workflows als eine Einheit verfolgen.

Wenn Sie einen Workflow definieren, wählen Sie den Blueprint aus, auf dem er basiert. Anschließend können Sie Workflows nach Bedarf oder nach einem Zeitplan ausführen.

Workflows, die Sie in Lake Formation erstellen, sind in der AWS Glue Konsole als gerichteter azyklischer Graph (DAG) sichtbar. Mithilfe der DAG können Sie den Fortschritt des Workflows verfolgen und Problembehebungen durchführen.

Data Catalog

Der Datenkatalog ist Ihr persistenter Metadatenspeicher. Es handelt sich um einen verwalteten Dienst, mit dem Sie Metadaten in der AWS Cloud genauso speichern, kommentieren und teilen können, wie Sie es in einem Apache Hive-Metastore tun würden. Es bietet ein einheitliches Repository, in dem unterschiedliche Systeme Metadaten speichern und finden können, um Daten in Datensilos zu verfolgen, und diese Metadaten dann zur Abfrage und Transformation der Daten verwenden können. Lake Formation verwendet den AWS Glue Datenkatalog, um Metadaten zu Data Lakes, Datenquellen, Transformationen und Zielen zu speichern.

Metadaten zu Datenquellen und Zielen liegen in Form von Datenbanken und Tabellen vor. In Tabellen werden Schemainformationen, Standortinformationen und mehr gespeichert. Datenbanken sind Sammlungen von Tabellen. Lake Formation bietet eine Hierarchie von Berechtigungen zur Steuerung des Zugriffs auf Datenbanken und Tabellen im Datenkatalog.

Jedes AWS Konto hat einen Datenkatalog pro AWS Region.

Zugrundeliegende Daten

Zugrundeliegende Daten beziehen sich auf die Quelldaten oder Daten innerhalb der Data Lakes, auf die Datenkatalogtabellen verweisen.

Auftraggeber

Ein Principal ist ein AWS Identity and Access Management (IAM-) Benutzer oder eine Rolle oder ein Active Directory-Benutzer.

Data Lake-Administrator

Ein Data Lake-Administrator ist ein Principal, der jedem Prinzipal (auch sich selbst) alle Berechtigungen für jede Datenkatalogressource oder jeden Datenspeicherort erteilen kann. Benennen Sie einen Data Lake-Administrator als ersten Benutzer des Datenkatalogs. Dieser Benutzer kann dann anderen Prinzipalen detailliertere Berechtigungen für Ressourcen gewähren.

Anmerkung

IAM-Administratorbenutzer — Benutzer mit der AdministratorAccess AWS verwalteten Richtlinie — sind nicht automatisch Data Lake-Administratoren. Beispielsweise können sie Lake Formation Formation-Berechtigungen für Katalogobjekte nur gewähren, wenn ihnen die entsprechenden Berechtigungen erteilt wurden. Sie können jedoch die Lake Formation Formation-Konsole oder die API verwenden, um sich als Data Lake-Administratoren zu bezeichnen.

Informationen zu den Funktionen eines Data Lake-Administrators finden Sie unterImplizite Lake Formation Formation-Berechtigungen. Informationen zur Benennung eines Benutzers als Data Lake-Administrator finden Sie unterErstellen Sie einen Data Lake-Administrator.