Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Optimierung der Abfrageleistung für Iceberg-Tabellen
Apache Iceberg ist ein leistungsstarkes Open-Table-Format für riesige analytische Datensätze. AWS Glue unterstützt die Berechnung und Aktualisierung der Anzahl unterschiedlicher Werte (NDVs) für jede Spalte in Iceberg-Tabellen. Diese Statistiken können Dateningenieuren und Wissenschaftlern, die mit großen Datensätzen arbeiten, eine bessere Abfrageoptimierung, ein besseres Datenmanagement und eine bessere Leistungseffizienz ermöglichen.
AWS Glue schätzt die Anzahl der unterschiedlichen Werte in jeder Spalte der Iceberg-Tabelle und speichert sie in Puffin-Dateien
Sie können konfigurieren, dass die Aufgabe zur Generierung von Spaltenstatistiken über die Konsole oder ausgeführt wird. AWS Glue AWS CLI Wenn Sie den Prozess starten, AWS Glue wird ein Spark-Job im Hintergrund gestartet und die AWS Glue Tabellenmetadaten im Datenkatalog aktualisiert. Sie können Spaltenstatistiken über die AWS Glue Konsole AWS CLI oder durch Aufrufen des GetColumnStatisticsForTableAPI-Vorgangs anzeigen.
Anmerkung
Wenn Sie AWS Lake Formation Berechtigungen verwenden, um den Zugriff auf die Tabelle zu steuern, erfordert die Rolle, die die Aufgabe für die Spaltenstatistik einnimmt, vollständigen Tabellenzugriff, um Statistiken zu generieren.