Optimierung der Verdichtung - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Optimierung der Verdichtung

Die Amazon S3 S3-Data Lakes, die offene Tabellenformate wie Apache Iceberg verwenden, speichern Daten als S3-Objekte. Tausende kleiner Amazon S3 S3-Objekte in einer Data-Lake-Tabelle erhöhen den Metadaten-Overhead und beeinträchtigen die Leseleistung. AWS Glue Data Catalog bietet verwaltete Komprimierung für Iceberg-Tabellen und komprimiert kleine Objekte zu größeren, um eine bessere Leseleistung durch AWS Analysedienste wie Amazon Amazon Athena EMR und Jobs zu erzielen. AWS Glue ETL Data Catalog führt die Komprimierung durch, ohne gleichzeitige Abfragen zu beeinträchtigen, und unterstützt die Komprimierung nur für Tabellen im Parquet-Format.

Der Tabellenoptimierer überwacht kontinuierlich Tabellenpartitionen und startet den Komprimierungsprozess, wenn der Schwellenwert für die Anzahl der Dateien und Dateigrößen überschritten wird.

Im Datenkatalog beginnt der Komprimierungsprozess und wird fortgesetzt, wenn die Tabelle oder eine der Partitionen in der Tabelle mehr als 100 Dateien enthält, von denen jede kleiner als 75% der Zieldateigröße ist (derzeit auf 512 MB festgelegt).

Einschränkungen finden Sie unter Unterstützte Formate und Einschränkungen für die verwaltete Datenkomprimierung .