Automatische Statistikgenerierung auf Katalogebene aktivieren - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Automatische Statistikgenerierung auf Katalogebene aktivieren

Sie können die automatische Generierung von Spaltenstatistiken für alle neuen Apache Iceberg-Tabellen und Tabellen in OTF Nicht-Tabellenformaten (Parquet JSONCSV,XML,ORC,,,ION) im Datenkatalog aktivieren. Nach dem Erstellen der Tabelle können Sie die Einstellungen für die Spaltenstatistiken auch explizit manuell aktualisieren.

Um die Datenkatalogeinstellungen so zu aktualisieren, dass sie die Katalogebene aktivieren, muss die verwendete IAM Rolle über die glue:UpdateCatalog entsprechende Berechtigung oder AWS Lake Formation ALTER CATALOG Berechtigung für den Stammkatalog verfügen. Sie können sie verwenden GetCatalogAPI, um die Katalogeigenschaften zu überprüfen.

AWS Management Console
Um die automatische Generierung von Spaltenstatistiken auf Kontoebene zu aktivieren
  1. Öffnen Sie die Lake Formation Formation-Konsole unter https://console.aws.amazon.com/lakeformation/.

  2. Wählen Sie in der linken Navigationsleiste Kataloge aus.

  3. Wählen Sie auf der Seite mit der Katalogübersicht unter Optimierungskonfiguration die Option Bearbeiten aus.

    Im Screenshot werden die Optionen angezeigt, die zum Generieren von Spaltenstatistiken verfügbar sind.
  4. Wählen Sie auf der Konfigurationsseite für die Tabellenoptimierung die Option Automatische Statistikgenerierung für die Tabellen des Katalogs aktivieren aus.

    Im Screenshot werden die Optionen angezeigt, die zum Generieren von Spaltenstatistiken verfügbar sind.
  5. Wählen Sie eine vorhandene IAM Rolle aus, oder erstellen Sie eine neue, die über die erforderlichen Berechtigungen verfügt, um die Aufgabe für Spaltenstatistiken auszuführen.

  6. Wählen Sie Absenden aus.

AWS CLI

Sie können die Erfassung von Statistiken auf Katalogebene auch über die aktivieren. AWS CLI Führen Sie den folgenden Befehl aus, um die Statistikerfassung auf Tabellenebene mit AWS CLI zu konfigurieren:

aws glue update-catalog --cli-input-json '{
    "name": "123456789012",
    "catalogInput": {
        "description": "Updating root catalog with role arn",
        "catalogProperties": {
            "customProperties": {
                "ColumnStatistics.RoleArn": "arn:aws:iam::"123456789012":role/service-role/AWSGlueServiceRole",
                "ColumnStatistics.Enabled": "true"
            }
        }
    }
}'
                   

Der obige Befehl ruft AWS Glue die UpdateCatalog Operation auf, die eine CatalogProperties Struktur mit den folgenden Schlüssel-Wert-Paaren für die Generierung von Statistiken auf Katalogebene verwendet:

  • ColumnStatistics. RoleArn — IAM RolleARN, die für alle Aufgaben verwendet werden soll, die für die Generierung von Statistiken auf Katalogebene ausgelöst wurden

  • ColumnStatistics.Enabled — Boolescher Wert, der angibt, ob die Einstellungen auf Katalogebene aktiviert oder deaktiviert sind