Überlegungen und Einschränkungen - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Überlegungen und Einschränkungen

Dieser Abschnitt enthält Dinge, die Sie bei der Verwendung von Tabellenoptimierern innerhalb von beachten sollten. AWS Glue Data Catalog

Unterstützte Formate und Einschränkungen für die verwaltete Datenkomprimierung

Die Datenverdichtung unterstützt eine Vielzahl von Datentypen und Komprimierungsformate zum Lesen und Schreiben von Daten, einschließlich des Lesens von Daten aus verschlüsselten Tabellen.

Die Datenverdichtung unterstützt:

  • Dateitypen — Parquet

  • Datentypen — Boolean, Integer, Long, Float, Double, String, Decimal, Date, Time, Timestamp, String, Binary UUID

  • Komprimierung — zstd, gzip, snappy, unkomprimiert

  • Verschlüsselung — Die Datenverdichtung unterstützt nur die standardmäßige Amazon-S3-Verschlüsselung (SSE-S3) und die serverseitige KMS Verschlüsselung (SSE-). KMS

  • Bin-Pack-Verdichtung

  • Schemaentwicklung

  • Tabellen mit Zieldateigröße (Schreiben). target-file-size-bytes Eigenschaft (in Iceberg-Konfiguration) bis zu 64 MB

  • Sie können die Verdichtung über das Konto ausführen, in dem sich der Datenkatalog befindet, wenn sich der Amazon-S3-Bucket, in dem die zugrunde liegenden Daten gespeichert werden, in einem anderen Konto befindet. Dazu benötigt die Verdichtungsrolle Zugriff auf den Amazon-S3-Bucket.

Die Datenverdichtung unterstützt derzeit nicht:

  • Dateitypen — Avro, ORC

  • Datentypen — Behoben

  • Komprimierung — brotli, lz4

  • Verdichtung von Dateien, während sich die Partitionsspezifikation weiterentwickelt.

  • Reguläre Sortierung oder Sortierung nach Z-Ordnung

  • Dateien zusammenführen oder löschen — Bei der Verdichtung werden Datendateien übersprungen, denen Löschdateien zugeordnet sind.

  • Verdichtung für kontoübergreifende Tabellen — Sie können die Verdichtung nicht für kontoübergreifende Tabellen ausführen.

  • Verdichtung für regionsübergreifende Tabellen — Sie können die Verdichtung nicht für regionsübergreifende Tabellen ausführen.

  • Aktivieren der Verdichtung für Ressourcenlinks

  • DynamoDB-Sperrmanager — Bei Verwendung der Datenkomprimierung sollten keine anderen Datenladeaufträge as org.apache.iceberg.aws.dynamodb verwendenlock-impl. DynamoDbLockManager.

  • Tabellen in der Speicherklasse Amazon S3 Express One Zone — Sie können die Verdichtung nicht für S3 Express One Zone Iceberg-Tables ausführen.

Überlegungen zu Optimierern für die Aufbewahrung von Snapshots und das Löschen verwaister Dateien

Für die Optimierer zur Aufbewahrung von Snapshots und zum Löschen verwaister Dateien gelten die folgenden Überlegungen.

  • Für die Prozesse zur Aufbewahrung von Snapshots und zum Löschen verwaister Dateien gilt eine Höchstgrenze von 1.000.000 Dateien pro Lauf. Wenn beim Löschen abgelaufener Snapshots die Anzahl der zum Löschen in Frage kommenden Dateien 1.000.000 übersteigt, werden alle verbleibenden Dateien, die diesen Schwellenwert überschreiten, weiterhin als verwaiste Dateien im Tabellenspeicher gespeichert.

  • Snapshots werden vom Snapshot Retention Optimizer nur aufbewahrt, wenn beide Kriterien erfüllt sind: die Mindestanzahl der aufzubewahrenden Snapshots und der angegebene Aufbewahrungszeitraum.

  • Der Snapshot Retention Optimizer löscht abgelaufene Snapshot-Metadaten aus Apache Iceberg, wodurch Zeitreiseanfragen für abgelaufene Snapshots verhindert und optional zugehörige Datendateien gelöscht werden.

  • Der Optimizer für das Löschen verwaister Dateien löscht verwaiste Daten und Metadatendateien, auf die in Iceberg-Metadaten nicht mehr verwiesen wird, wenn ihre Erstellungszeit vor dem Aufbewahrungszeitraum für das Löschen verwaister Dateien ab dem Zeitpunkt der Ausführung des Optimizers liegt.

  • Apache Iceberg erleichtert die Versionskontrolle durch Branches und Tags, die als Zeiger auf bestimmte Snapshot-Zustände bezeichnet werden. Jeder Branch und jedes Tag folgt einem eigenen unabhängigen Lebenszyklus, der durch Aufbewahrungsrichtlinien geregelt wird, die auf den jeweiligen Ebenen definiert sind. Die AWS Glue Data Catalog Optimierer berücksichtigen diese Lebenszyklusrichtlinien und stellen so die Einhaltung der festgelegten Aufbewahrungsregeln sicher. Aufbewahrungsrichtlinien auf Branchen- und Tagebene haben Vorrang vor den Optimierer-Konfigurationen.

    Weitere Informationen finden Sie unter Branching and Tagging in der Apache-Iceberg-Dokumentation.

  • Die Optimierer für die Aufbewahrung von Snapshots und das Löschen verwaister Dateien löschen Dateien, die gemäß den konfigurierten Parametern bereinigt werden können. Verbessern Sie Ihre Kontrolle über das Löschen von Dateien, indem Sie S3-Versionierungs- und Lebenszyklusrichtlinien für die entsprechenden Buckets implementieren.

    Ausführliche Anweisungen zum Einrichten der Versionierung und zum Erstellen von Lebenszyklusregeln finden Sie unter. https://docs.aws.amazon.com/AmazonS3/latest/userguide/Versioning.html