Überlegungen und Einschränkungen - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Überlegungen und Einschränkungen

Dieser Abschnitt enthält Dinge, die Sie bei der Verwendung von Tabellenoptimierern in der beachten sollten AWS Glue Data Catalog.

Unterstützte Formate und Einschränkungen für die verwaltete Datenkomprimierung

Die Datenkomprimierung unterstützt eine Vielzahl von Datentypen und Komprimierungsformaten zum Lesen und Schreiben von Daten, einschließlich des Lesens von Daten aus verschlüsselten Tabellen.

Die Datenverdichtung unterstützt:

  • Dateitypen — Parquet

  • Datentypen — Boolean, Integer, Long, Float, Double, String, Decimal, Date, Time, Timestamp, String, Binary UUID

  • Komprimierung — zstd, gzip, snappy, unkomprimiert

  • Verschlüsselung — Die Datenkomprimierung unterstützt nur die standardmäßige Amazon S3 S3-Verschlüsselung (SSE-S3) und die serverseitige KMS Verschlüsselung (SSE-). KMS

  • Bin-Pack-Verdichtung

  • Schemaentwicklung

  • Tabellen mit Zieldateigröße (Schreiben). target-file-size-bytes Eigenschaft (in Eisberg-Konfiguration) bis zu 64 MB

  • Sie können die Verdichtung über das Konto ausführen, in dem sich der Datenkatalog befindet, wenn sich der Amazon-S3-Bucket, in dem die zugrunde liegenden Daten gespeichert werden, in einem anderen Konto befindet. Dazu benötigt die Verdichtungsrolle Zugriff auf den Amazon-S3-Bucket.

Die Datenverdichtung unterstützt derzeit nicht:

  • Dateitypen — Avro, ORC

  • Datentypen — Behoben

  • Komprimierung — brotli, lz4

  • Komprimierung von Dateien, während sich die Partitionsspezifikation weiterentwickelt.

  • Reguläre Sortierung oder Sortierung nach Z-Ordnung

  • Dateien zusammenführen oder löschen — Bei der Komprimierung werden Datendateien übersprungen, denen Löschdateien zugeordnet sind.

  • Komprimierung für kontenübergreifende Tabellen — Sie können die Komprimierung nicht für kontenübergreifende Tabellen ausführen.

  • Komprimierung für regionsübergreifende Tabellen — Sie können die Komprimierung nicht für regionsübergreifende Tabellen ausführen.

  • Aktivieren der Verdichtung für Ressourcenlinks

  • VPCEndpunkte für Amazon S3 S3-Buckets

  • DynamoDB-Sperrmanager — Bei Verwendung der Datenkomprimierung sollten keine anderen Datenladeaufträge as org.apache.iceberg.aws.dynamodb verwendenlock-impl. DynamoDbLockManager.

Überlegungen zu Optimierern für die Aufbewahrung von Snapshots und das Löschen verwaister Dateien

Die folgenden Überlegungen gelten für die Snapshot-Aufbewahrung und die Optimierer für das Löschen verwaister Dateien.

  • Für die Prozesse zur Aufbewahrung von Snapshots und zum Löschen verwaister Dateien gilt eine Höchstgrenze von 1.000.000 Dateien pro Lauf. Wenn beim Löschen abgelaufener Snapshots die Anzahl der zum Löschen in Frage kommenden Dateien 1.000.000 übersteigt, werden alle verbleibenden Dateien, die diesen Schwellenwert überschreiten, weiterhin als verwaiste Dateien im Tabellenspeicher gespeichert.

  • Snapshots werden vom Snapshot Retention Optimizer nur aufbewahrt, wenn beide Kriterien erfüllt sind: die Mindestanzahl der aufzubewahrenden Snapshots und der angegebene Aufbewahrungszeitraum.

  • Der Snapshot Retention Optimizer löscht abgelaufene Snapshot-Metadaten aus Apache Iceberg, wodurch Zeitreiseanfragen für abgelaufene Snapshots verhindert und optional zugehörige Datendateien gelöscht werden.

  • Der Optimizer für das Löschen verwaister Dateien löscht verwaiste Daten und Metadatendateien, auf die in Iceberg-Metadaten nicht mehr verwiesen wird, wenn ihre Erstellungszeit vor dem Aufbewahrungszeitraum für das Löschen verwaister Dateien ab dem Zeitpunkt der Ausführung des Optimizers liegt.

  • Apache Iceberg erleichtert die Versionskontrolle durch Branches und Tags, die als Zeiger auf bestimmte Snapshot-Zustände bezeichnet werden. Jeder Branch und jedes Tag folgt einem eigenen unabhängigen Lebenszyklus, der durch Aufbewahrungsrichtlinien geregelt wird, die auf den jeweiligen Ebenen definiert sind. Das Tool AWS Glue Data Catalog Optimierer berücksichtigen diese Lebenszyklusrichtlinien und stellen so die Einhaltung der festgelegten Aufbewahrungsregeln sicher. Aufbewahrungsrichtlinien auf Branchen- und Tagebene haben Vorrang vor den Optimierer-Konfigurationen.

    Weitere Informationen finden Sie unter Branching and Tagging in der Apache Iceberg-Dokumentation.

  • Die Optimierer für die Aufbewahrung von Snapshots und das Löschen verwaister Dateien löschen Dateien, die gemäß den konfigurierten Parametern bereinigt werden können. Verbessern Sie Ihre Kontrolle über das Löschen von Dateien, indem Sie S3-Versionierungs- und Lebenszyklusrichtlinien für die entsprechenden Buckets implementieren.

    Detaillierte Anweisungen zum Einrichten der Versionierung und zum Erstellen von Lebenszyklusregeln finden Sie unter. https://docs.aws.amazon.com/AmazonS3/latest/userguide/Versioning.html