Empfohlene Datenebenen von

Wenn Sie mit nicht sensiblen Daten arbeiten, wie z. B. nicht personenbezogenen Daten (PII), empfehlen wir Ihnen, mindestens drei verschiedene Datenschichten in einem Data Lake auf dem zu verwendenAWS Cloud.

Abhängig von der Komplexität und den Anwendungsfällen der Daten benötigen Sie jedoch möglicherweise zusätzliche Ebenen. Wenn Sie beispielsweise mit vertraulichen Daten arbeiten (z. B. PII-Daten), empfehlen wir Ihnen, einen zusätzlichen Amazon Simple Storage Service (Amazon S3) -Bucket als landing zone zu verwenden und die Daten dann zu maskieren, bevor sie in die Rohdatenschicht verschoben werden. Weitere Informationen zu diesem Gerät finden Sie imUmgang sensibler Daten Abschnitt dieses Handbuchs.

Jede Datenschicht muss einen individuellen S3-Bucket haben. In der folgenden Tabelle werden unsere empfohlenen Datenschichten beschrieben:

Name der Datenschicht	Beschreibung	Beispiel für eine Strategie für eine Lebenszyklusrichtlinie
Roh	Enthält die unverarbeiteten Rohdaten und ist die Ebene, in der Daten in den Data Lake aufgenommen werden. Wenn möglich, sollten Sie das ursprüngliche Dateiformat beibehalten und die Versionierung im S3-Bucket aktivieren.	Verschieben Sie Dateien nach einem Jahr in die Amazon S3 S3-Speicherklasse für unregelmäßigen Zugriff (IA). Archivieren Sie sie nach zwei Jahren in Amazon S3 IA in Amazon S3 Glacier.
Stage	Enthält verarbeitete Zwischendaten, die für den Verbrauch optimiert sind (z. B. konvertierte Rohdateien von CSV in Apache Parquet oder Datentransformationen). EinAWS Glue Job liest die Dateien aus der Rohschicht und validiert die Daten. DerAWS Glue Job speichert die Daten dann in einer Datei im Apache Parquet-Format und die Metadaten werden in einer Tabelle imAWS Glue Datenkatalog gespeichert.	Daten können nach einem definierten Zeitraum oder gemäß den Anforderungen Ihres Unternehmens gelöscht werden. Einige Datenderivate (z. B. eine Apache Avro-Transformation eines ursprünglichen JSON-Formats) können nach kürzerer Zeit (z. B. nach 90 Tagen) aus dem Data Lake entfernt werden.
Analysen	Enthält die aggregierten Daten für Ihre spezifischen Anwendungsfälle in einem verbrauchsfertigen Format (z. B. Apache Parquet).	Daten können nach Amazon S3 IA verschoben und dann nach einem definierten Zeitraum oder gemäß den Anforderungen Ihres Unternehmens gelöscht werden.

Anmerkung

Sie müssen alle empfohlenen Lifecycle-Policy-Strategien anhand Ihrer organisatorischen Anforderungen, regulatorischen Anforderungen, Abfragemuster und Kostenüberlegungen bewerten.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Einführung

Benennen von S3-Buckets in Ihren Datenschichten