Empfohlene Datenebenen von - AWS Präskriptive Leitlinien

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Empfohlene Datenebenen von

Wenn Sie mit nicht sensiblen Daten arbeiten, wie z. B. nicht personenbezogenen Daten (PII), empfehlen wir Ihnen, mindestens drei verschiedene Datenschichten in einem Data Lake auf dem zu verwendenAWS Cloud.

Abhängig von der Komplexität und den Anwendungsfällen der Daten benötigen Sie jedoch möglicherweise zusätzliche Ebenen. Wenn Sie beispielsweise mit vertraulichen Daten arbeiten (z. B. PII-Daten), empfehlen wir Ihnen, einen zusätzlichen Amazon Simple Storage Service (Amazon S3) -Bucket als landing zone zu verwenden und die Daten dann zu maskieren, bevor sie in die Rohdatenschicht verschoben werden. Weitere Informationen zu diesem Gerät finden Sie imUmgang sensibler Daten Abschnitt dieses Handbuchs.

Jede Datenschicht muss einen individuellen S3-Bucket haben. In der folgenden Tabelle werden unsere empfohlenen Datenschichten beschrieben:

Name der Datenschicht Beschreibung Beispiel für eine Strategie für eine Lebenszyklusrichtlinie
Roh

Enthält die unverarbeiteten Rohdaten und ist die Ebene, in der Daten in den Data Lake aufgenommen werden.

Wenn möglich, sollten Sie das ursprüngliche Dateiformat beibehalten und die Versionierung im S3-Bucket aktivieren.

Verschieben Sie Dateien nach einem Jahr in die Amazon S3 S3-Speicherklasse für unregelmäßigen Zugriff (IA). Archivieren Sie sie nach zwei Jahren in Amazon S3 IA in Amazon S3 Glacier.
Stage

Enthält verarbeitete Zwischendaten, die für den Verbrauch optimiert sind (z. B. konvertierte Rohdateien von CSV in Apache Parquet oder Datentransformationen).

EinAWS Glue Job liest die Dateien aus der Rohschicht und validiert die Daten. DerAWS Glue Job speichert die Daten dann in einer Datei im Apache Parquet-Format und die Metadaten werden in einer Tabelle imAWS Glue Datenkatalog gespeichert.

Daten können nach einem definierten Zeitraum oder gemäß den Anforderungen Ihres Unternehmens gelöscht werden.

Einige Datenderivate (z. B. eine Apache Avro-Transformation eines ursprünglichen JSON-Formats) können nach kürzerer Zeit (z. B. nach 90 Tagen) aus dem Data Lake entfernt werden.

Analysen Enthält die aggregierten Daten für Ihre spezifischen Anwendungsfälle in einem verbrauchsfertigen Format (z. B. Apache Parquet). Daten können nach Amazon S3 IA verschoben und dann nach einem definierten Zeitraum oder gemäß den Anforderungen Ihres Unternehmens gelöscht werden.
Anmerkung

Sie müssen alle empfohlenen Lifecycle-Policy-Strategien anhand Ihrer organisatorischen Anforderungen, regulatorischen Anforderungen, Abfragemuster und Kostenüberlegungen bewerten.