Haltbarkeit und Richtigkeit Bekannte Probleme Unterstützte Formate und Einschränkungen für die verwaltete Datenverdichtung Überlegungen zu Optimierungsprogrammen für die Aufbewahrung von Snapshots und das Löschen verwaister Dateien OversizedAllocationException Ausnahme beim Debuggen

Überlegungen und Einschränkungen

Dieser Abschnitt enthält Dinge, die bei der Verwendung von Tabellenoptimierern innerhalb von AWS Glue Data Catalog zu beachten sind.

Haltbarkeit und Richtigkeit

Standorte der S3-Tabellen:

Wenn sich mehrere AWS Glue Data Catalog Tabellen denselben Amazon S3 S3-Speicherort teilen und Optimizer aktiviert sind, kann der Optimizer für die Aufbewahrung von Snapshots oder das Löschen verwaister Dateien für eine Tabelle Dateien löschen, auf die in der anderen Tabelle noch verwiesen wird. Stellen Sie sicher, dass jede Tabelle mit aktivierten Optimierern einen eindeutigen Amazon S3 S3-Speicherort hat, der nicht mit anderen Tabellen gemeinsam genutzt wird, einschließlich Tabellen in verschiedenen Datenbanken.

Ablauf des S3-Lebenszyklus:

Die Lebenszyklusablaufregeln von Amazon S3, die für Iceberg-Tabellenspeicherorte gelten, können Manifest- und Datendateien löschen, auf die noch in aktiven Snapshots verwiesen wird. Wenn Ihr Bucket über Regeln zum Ablauf des Lebenszyklus verfügt, stellen Sie sicher, dass diese den Speicherpfad der Iceberg-Tabelle ausschließen.

Bekannte Probleme

In der Dokumentation zu Tabellenoptimierern auf Katalogebene heißt es, dass „Tabellen ohne eigene Optimierer-Konfigurationen den deaktivierten Status von der Katalogebene erben“. Es gibt ein bekanntes Problem, bei dem einige Tabellen ohne eigene Optimierer-Konfiguration den deaktivierten Status möglicherweise nicht korrekt aus der Konfiguration auf Katalogebene übernehmen. Überprüfen Sie anhand der Ausführungsprotokolle der AWS Glue Konsole und des Optimizers, welche Optimizer derzeit in Ihrem Konto aktiviert sind und ausgeführt werden, und deaktivieren Sie alle, die Sie nicht benötigen.

Unterstützte Formate und Einschränkungen für die verwaltete Datenverdichtung

Die Datenverdichtung unterstützt eine Vielzahl von Datentypen und Verdichtungsformaten zum Lesen und Schreiben von Daten, einschließlich des Lesens von Daten aus verschlüsselten Tabellen.

Kontrolle der Parallelität:

Apache Iceberg unterstützt eine optimistische Parallelitätssteuerung, sodass mehrere Autoren gleichzeitig Operationen ausführen können. Konflikte werden beim Festschreiben erkannt und gelöst. Wenn Sie mit Streaming-Pipelines arbeiten, konfigurieren Sie über die Tabelleneigenschaften und die Komprimierungseinstellungen die entsprechenden Einstellungen für Wiederholungsversuche, um gleichzeitige Schreibvorgänge effektiv verarbeiten zu können. Eine ausführliche Anleitung finden Sie im AWS Big Data-Blog zur Verwaltung gleichzeitiger Schreibvorgänge in Iceberg-Tabellen.

Wiederholungsversuche bei der Komprimierung:

Wenn Verdichtungsvorgänge viermal hintereinander fehlschlagen, unterbricht die Optimierung der AWS Glue Katalogtabelle den Optimizer automatisch, um einen unnötigen Verbrauch von Rechenressourcen zu verhindern. Untersuchen Sie zunächst die Protokolle und versuchen Sie herauszufinden, warum die Komprimierung wiederholt fehlschlägt. Um die Verdichtungsoptimierung wieder aufzunehmen, können Sie den Optimizer über die AWS Glue Konsole oder API erneut aktivieren.

Die Datenverdichtung unterstützt:

Verschlüsselung: Die Datenverdichtung unterstützt nur die standardmäßige Amazon-S3-Verschlüsselung (SSE-S3) und die serverseitige KMS-Verschlüsselung (SSE-KMS).
Verdichtungsstrategien — Binpack, Sortierung und Sortierung in Z-Reihenfolge
Sie können die Verdichtung über das Konto ausführen, in dem sich der Datenkatalog befindet, wenn sich der Amazon-S3-Bucket, in dem die zugrunde liegenden Daten gespeichert werden, in einem anderen Konto befindet. Dazu benötigt die Verdichtungsrolle Zugriff auf den Amazon-S3-Bucket.

Die Datenverdichtung unterstützt derzeit nicht:

Verdichtung für kontoübergreifende Tabellen: Sie können die Verdichtung nicht für kontoübergreifende Tabellen ausführen.
Verdichtung für regionsübergreifende Tabellen: Sie können die Verdichtung nicht für regionsübergreifende Tabellen ausführen.
Aktivieren der Verdichtung für Ressourcenlinks
Tabellen in der Speicherklasse Amazon S3 Express One Zone — Sie können keine Komprimierung auf Amazon S3 Express One Zone Iceberg Tables ausführen.
Bei der Verdichtungsstrategie mit Z-Reihenfolge werden die folgenden Datentypen nicht unterstützt:
- Dezimal
- TimestampWithoutZone

Überlegungen zu Optimierungsprogrammen für die Aufbewahrung von Snapshots und das Löschen verwaister Dateien

Die folgenden Überlegungen gelten für Optimierungsprogramme für die Aufbewahrung von Snapshots und das Löschen verwaister Dateien.

Die Prozesse zur Aufbewahrung von Snapshots und zum Löschen verwaister Dateien haben eine maximale Grenze von 1 000 000 Dateien pro Ausführung. Wenn beim Löschen abgelaufener Snapshots die Anzahl der zum Löschen infrage kommenden Dateien 1 000 000 überschreitet, bleiben alle darüber hinausgehenden Dateien als verwaiste Dateien im Tabellenspeicher erhalten.
Snapshots werden vom Optimierungsprogramm nur dann aufbewahrt, wenn beide Kriterien erfüllt sind: die Mindestanzahl der aufzubewahrenden Snapshots und der festgelegte Aufbewahrungszeitraum.
Das Optimierungsprogramm für die Aufbewahrung von Snapshots löscht abgelaufene Snapshot-Metadaten aus Apache Iceberg, wodurch Zeitreiseabfragen für abgelaufene Snapshots verhindert und zugehörige Datendateien optional gelöscht werden.
Das Optimierungsprogramm zum Löschen verwaister Dateien löscht verwaiste Daten- und Metadatendateien, auf die von den Iceberg-Metadaten nicht mehr verwiesen wird, wenn ihr Erstellungszeitpunkt vor der Aufbewahrungsfrist für verwaiste Dateien zum Zeitpunkt der Ausführung des Optimierungsprogramms liegt.
Apache Iceberg erleichtert die Versionskontrolle durch Branches und Tags, bei denen es sich um benannte Verweise auf bestimmte Snapshot-Zustände handelt. Jeder Branch und jedes Tag folgt seinem eigenen unabhängigen Lebenszyklus, der durch die auf den jeweiligen Ebenen definierten Aufbewahrungsrichtlinien geregelt wird. Die AWS Glue Data Catalog Optimierer berücksichtigen diese Lebenszyklusrichtlinien und stellen so die Einhaltung der angegebenen Aufbewahrungsregeln sicher. Aufbewahrungsrichtlinien auf Branch- und Tag-Ebene haben Vorrang vor den Optimierungskonfigurationen.

Weitere Informationen finden Sie unter Branching and Tagging in der Apache-Iceberg-Dokumentation.
Optimierungsprogramme für die Aufbewahrung von Snapshots und das Löschen verwaister Dateien löschen Dateien, die gemäß den konfigurierten Parametern für die Bereinigung infrage kommen. Verbessern Sie Ihre Kontrolle über das Löschen von Dateien, indem Sie S3-Versionsverwaltung und Lebenszyklusrichtlinien für die entsprechenden Buckets implementieren.

Ausführliche Anweisungen zum Einrichten der Versionsverwaltung und zum Erstellen von Lebenszyklusregeln finden Sie unter https://docs.aws.amazon.com/AmazonS3/latest/userguide/Versioning.html.
Stellen Sie für die korrekte Ermittlung verwaister Dateien sicher, dass sich der angegebene Speicherort der Tabelle und alle Unterpfade nicht mit Daten aus anderen Tabellen oder Datenquellen überschneiden oder diese enthalten. Wenn sich Pfade überschneiden, riskieren Sie einen unwiederbringlichen Datenverlust durch unbeabsichtigtes Löschen von Dateien.

OversizedAllocationException Ausnahme beim Debuggen

So beheben Sie eine OversizedAllocationException-Ausnahme:

Reduzieren Sie die Stapelgröße des vektorisierten Readers und überprüfen Sie das Ergebnis. Die Standardstapelgröße ist 5000. Dies wird in read.parquet.vectorization.batch-size gesteuert.
- Wenn dies auch nach mehreren Variationen nicht funktioniert, deaktivieren Sie die Vektorisierung. Dies wird in read.parquet.vectorization.enabled gesteuert.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Löschen eines Optimierers

Unterstützte Regionen für Tabellenoptimierer