Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Optimieren der Abfrageleistung mithilfe von Spaltenstatistiken
Sie können Statistiken auf Spaltenebene für AWS Glue Data Catalog Tabellen in Datenformaten wie Parquet,,,, ORCJSON, und berechnen IONCSV, XML ohne zusätzliche Datenpipelines einzurichten. Spaltenstatistiken helfen Ihnen dabei, Datenprofile zu verstehen, indem sie Einblicke in die Werte innerhalb einer Spalte gewinnen.
Der Datenkatalog unterstützt die Generierung von Statistiken für Spaltenwerte wie Minimalwert, Maximalwert, Gesamt-Nullwerte, Gesamtzahl unterschiedlicher Werte, durchschnittliche Länge von Werten und Gesamtzahl der Vorkommen von wahren Werten. AWS Analysedienste wie Amazon Redshift und Amazon Athena können diese Spaltenstatistiken verwenden, um Abfrageausführungspläne zu generieren und den optimalen Plan auszuwählen, der die Abfrageleistung verbessert.
Es gibt zwei Szenarien für die Generierung von Spaltenstatistiken:
- Geplant
AWS Glue unterstützt die Planung der Generierung von Spaltenstatistiken, sodass sie automatisch nach einem wiederkehrenden Zeitplan ausgeführt werden kann.
Bei der geplanten Statistikberechnung aktualisiert der Task für Spaltenstatistiken die Gesamtstatistiken auf Tabellenebene, z. B. Min., Max und Durchschnitt, mit den neuen Statistiken, sodass Abfrage-Engines genaue Statistiken und up-to-date Statistiken zur Optimierung der Abfrageausführung erhalten.
- Auf Abruf
Verwenden Sie diese Option, um bei Bedarf Spaltenstatistiken auf Abruf zu generieren. Dies ist nützlich für Ad-hoc-Analysen oder wenn Statistiken sofort berechnet werden müssen.
Sie können so konfigurieren, dass die Aufgabe zur Generierung von Spaltenstatistiken mithilfe von AWS Glue Konsolen AWS CLI, und AWS Glue API Operationen ausgeführt wird. Wenn Sie den Prozess starten, AWS Glue wird ein Spark-Job im Hintergrund gestartet und die AWS Glue Tabellenmetadaten im Datenkatalog aktualisiert. Sie können Spaltenstatistiken in der AWS Glue Konsole AWS CLI oder durch Aufrufen des GetColumnStatisticsForTableAPIVorgangs anzeigen.
Anmerkung
Wenn Sie Lake-Formation-Berechtigungen verwenden, um den Zugriff auf die Tabelle zu steuern, erfordert die von der Aufgabe für Spaltenstatistiken übernommene Rolle vollständigen Tabellenzugriff, um Statistiken zu generieren.
Das folgende Video zeigt, wie Sie die Abfrageleistung mithilfe von Spaltenstatistiken verbessern können.
Themen
- Voraussetzungen für die Generierung von Spaltenstatistiken
- Generieren von Spaltenstatistiken nach einem Zeitplan
- Generierung von Spaltenstatistiken auf Abruf
- Anzeigen von Spaltenstatistiken
- Anzeigen von Spaltenstatistik-Aufgabenläufen
- Beenden des Spaltenstatistik-Aufgabenlaufs
- Löschen von Spaltenstatistiken
- Überlegungen und Einschränkungen