Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Die automatische Generierung von Spaltenstatistiken ermöglicht es Ihnen, Statistiken für neue Tabellen in der zu planen und automatisch zu berechnen AWS Glue Data Catalog. Wenn Sie die automatische Statistikgenerierung aktivieren, erkennt der Datenkatalog neue Tabellen mit bestimmten Datenformaten wie Parquet,,,JSON, CSV XML ORCION, und Apache Iceberg zusammen mit ihren individuellen Bucket-Pfaden. Bei einer einmaligen Katalogkonfiguration generiert der Datenkatalog Statistiken für diese Tabellen.
Data Lake-Administratoren können die Statistikgenerierung konfigurieren, indem sie den Standardkatalog in der Lake Formation Formation-Konsole auswählen und mithilfe der Optimization configuration
Option Tabellenstatistiken aktivieren. Wenn Sie neue Tabellen erstellen oder bestehende Tabellen im Datenkatalog aktualisieren, erfasst der Datenkatalog wöchentlich die Anzahl der unterschiedlichen Werte (NDVs) für Apache Iceberg-Tabellen sowie zusätzliche Statistiken wie die Anzahl der Nullen, die maximale, minimale und durchschnittliche Länge für andere unterstützte Dateiformate.
Wenn Sie die Statistikgenerierung auf Tabellenebene konfiguriert haben oder wenn Sie zuvor die Einstellungen für die Statistikgenerierung für eine Tabelle gelöscht haben, haben diese tabellenspezifischen Einstellungen Vorrang vor den Standardkatalogeinstellungen für die automatische Generierung von Spaltenstatistiken.
Die Aufgabe zur automatischen Statistikgenerierung analysiert 20% der Datensätze in den Tabellen, um Statistiken zu berechnen. Die automatische Generierung von Spaltenstatistiken stellt sicher, dass der Datenkatalog über die neuesten Statistiken verfügt, die von Abfrage-Engines wie Amazon Athena und Amazon Redshift Spectrum verwendet werden können, um die Abfrageleistung zu verbessern und potenzielle Kosteneinsparungen zu erzielen. Es ermöglicht die Planung der Statistikgenerierung mithilfe der Konsole AWS Glue APIs oder der Konsole und bietet so einen automatisierten Prozess ohne manuelles Eingreifen.