Optimierung der Verdichtung

Die Amazon-S3-Data-Lakes, die offene Tabellenformate wie Apache Iceberg verwenden, speichern Daten als S3-Objekte. Tausende kleiner Amazon S3 S3-Objekte in einer Data-Lake-Tabelle erhöhen den Metadaten-Overhead und beeinträchtigen die Leseleistung. AWS Glue Data Catalog bietet verwaltete Komprimierung für Iceberg-Tabellen und komprimiert kleine Objekte zu größeren, um eine bessere Leseleistung durch AWS Analysedienste wie Amazon EMR Amazon Athena und ETL-Jobs zu erzielen. AWS Glue Der Datenkatalog führt die Verdichtung durch, ohne gleichzeitige Abfragen zu stören, und unterstützt die Verdichtung nur für Tabellen im Parquet-Format.

Der Tabellenoptimierer überwacht laufend Tabellenpartitionen und startet den Verdichtungsprozess, wenn der Schwellenwert für die Anzahl und Größe von Dateien überschritten wird.

Im Datenkatalog beginnt der Verdichtungsprozess, wenn eine Tabelle oder eine ihrer Partitionen mehr als 100 Dateien enthält. Jede Datei muss kleiner als 75 % der Zieldateigröße sein. Die Zieldateigröße wird durch die Tabelleneigenschaft write.target-file-size-bytes bestimmt, die standardmäßig 512 MB beträgt, sofern sie nicht explizit festgelegt ist.

Einschränkungen finden Sie unter Unterstützte Formate und Einschränkungen für die verwaltete Datenverdichtung.

Themen

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Deaktivieren der Tabellenoptimierung auf Katalogebene

Aktivieren des Verdichtungsoptimierers