Datensee Datenzugriff Hybrider Zugriffsmodus Blueprint Workflow Data Catalog Zugrundeliegende Daten Auftraggeber Data Lake-Administrator

Terminologie der Lake Formation

Im Folgenden sind einige wichtige Begriffe aufgeführt, denen Sie in diesem Handbuch begegnen werden.

Datensee

Der Data Lake sind Ihre persistenten Daten, die in Amazon S3 gespeichert und von Lake Formation mithilfe eines Datenkatalogs verwaltet werden. Ein Data Lake speichert in der Regel Folgendes:

Strukturierte und unstrukturierte Daten
Rohdaten und transformierte Daten

Damit sich ein Amazon S3 S3-Pfad innerhalb eines Data Lake befindet, muss er bei Lake Formation registriert sein.

Datenzugriff

Lake Formation bietet sicheren und detaillierten Zugriff auf Daten durch ein neues Modell für die Gewährung und den Widerruf von Berechtigungen, das die () -Richtlinien erweitert. AWS Identity and Access Management IAM

Analysten und Datenwissenschaftler können das gesamte Portfolio an AWS Analyse- und Machine-Learning-Diensten wie Amazon Athena nutzen, um auf die Daten zuzugreifen. Die konfigurierten Sicherheitsrichtlinien von Lake Formation stellen sicher, dass Benutzer nur auf die Daten zugreifen können, für die sie autorisiert sind.

Hybrider Zugriffsmodus

Im hybriden Zugriffsmodus können Sie die katalogisierten Daten sichern und darauf zugreifen, indem Sie sowohl Lake Formation Formation-Berechtigungen als auch Amazon S3 IAM S3-Berechtigungen verwenden. Der hybride Zugriffsmodus ermöglicht es Datenadministratoren, Lake Formation Formation-Berechtigungen selektiv und inkrementell zu integrieren und sich dabei jeweils auf einen Data Lake-Anwendungsfall zu konzentrieren.

Blueprint

Ein Blueprint ist eine Datenverwaltungsvorlage, mit der Sie Daten einfach in einen Data Lake aufnehmen können. Lake Formation bietet mehrere Blueprints, jeweils für einen vordefinierten Quelltyp, z. B. eine relationale Datenbank oder AWS CloudTrail Protokolle. Aus einem Blueprint können Sie einen Workflow erstellen. Workflows bestehen aus AWS Glue Crawlern, Jobs und Triggern, die generiert werden, um das Laden und Aktualisieren von Daten zu orchestrieren. Blueprints verwenden die Datenquelle, das Datenziel und den Zeitplan als Eingabe für die Konfiguration des Workflows.

Workflow

Ein Workflow ist ein Container für eine Reihe verwandter AWS Glue Jobs, Crawler und Trigger. Sie erstellen den Workflow in Lake Formation und er wird ausgeführt in AWS Glue Dienst. Lake Formation kann den Status eines Workflows als eine Einheit verfolgen.

Wenn Sie einen Workflow definieren, wählen Sie den Blueprint aus, auf dem er basiert. Anschließend können Sie Workflows nach Bedarf oder nach einem Zeitplan ausführen.

Workflows, die Sie in Lake Formation erstellen, sind sichtbar in der AWS Glue Konsole als gerichteter azyklischer Graph ()DAG. Mithilfe der DAG können Sie den Fortschritt des Workflows verfolgen und Fehler beheben.

Data Catalog

Der Datenkatalog ist Ihr persistenter Metadatenspeicher. Es handelt sich um einen verwalteten Dienst, mit dem Sie Metadaten in der AWS Cloud genauso speichern, kommentieren und teilen können, wie Sie es in einem Apache Hive-Metastore tun würden. Es bietet ein einheitliches Repository, in dem unterschiedliche Systeme Metadaten speichern und finden können, um Daten in Datensilos zu verfolgen, und diese Metadaten dann zur Abfrage und Transformation der Daten verwenden können. Lake Formation verwendet die AWS Glue Datenkatalog zum Speichern von Metadaten über Data Lakes, Datenquellen, Transformationen und Ziele.

Metadaten zu Datenquellen und Zielen liegen in Form von Datenbanken und Tabellen vor. In Tabellen werden Schemainformationen, Standortinformationen und mehr gespeichert. Datenbanken sind Sammlungen von Tabellen. Lake Formation bietet eine Hierarchie von Berechtigungen zur Steuerung des Zugriffs auf Datenbanken und Tabellen im Datenkatalog.

Jedes AWS Konto hat einen Datenkatalog pro AWS Region.

Zugrundeliegende Daten

Zugrundeliegende Daten beziehen sich auf die Quelldaten oder Daten innerhalb der Data Lakes, auf die Datenkatalogtabellen verweisen.

Auftraggeber

Ein Principal ist ein Benutzer oder eine Rolle AWS Identity and Access Management (IAM) oder ein Active Directory-Benutzer.

Data Lake-Administrator

Ein Data Lake-Administrator ist ein Principal, der jedem Prinzipal (auch sich selbst) alle Berechtigungen für jede Datenkatalogressource oder jeden Datenspeicherort erteilen kann. Benennen Sie einen Data Lake-Administrator als ersten Benutzer des Datenkatalogs. Dieser Benutzer kann dann anderen Prinzipalen detailliertere Berechtigungen für Ressourcen gewähren.

Anmerkung

IAMAdministratorbenutzer — Benutzer mit der AdministratorAccess AWS verwalteten Richtlinie — sind nicht automatisch Data Lake-Administratoren. Beispielsweise können sie Lake Formation Formation-Berechtigungen für Katalogobjekte nur gewähren, wenn ihnen die entsprechenden Berechtigungen erteilt wurden. Sie können jedoch die Lake Formation Formation-Konsole verwenden oder API sich selbst als Data Lake-Administratoren bezeichnen.

Informationen zu den Funktionen eines Data Lake-Administrators finden Sie unterImplizite Lake Formation Formation-Berechtigungen. Informationen zur Benennung eines Benutzers als Data Lake-Administrator finden Sie unterErstellen Sie einen Data Lake-Administrator.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Komponenten von Lake Formation

AWS Serviceintegrationen mit Lake Formation