Generieren von Spaltenstatistiken nach einem Zeitplan - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Generieren von Spaltenstatistiken nach einem Zeitplan

Gehen Sie wie folgt vor, um einen Zeitplan für die Generierung von Spaltenstatistiken AWS Glue Data Catalog mithilfe der AWS Glue Konsole AWS CLI, der oder der CreateColumnStatisticsTaskSettingsOperation zu konfigurieren.

Console
Generieren von Spaltenstatistiken mit der Konsole
  1. Melden Sie sich bei der AWS Glue Konsole unter an https://console.aws.amazon.com/glue/.

  2. Wählen Sie „Datenkatalog-Tabellen“ aus.

  3. Wählen Sie eine Tabelle aus der Liste aus.

  4. Wählen Sie im unteren Bereich der Tabellenseite den Tab Spaltenstatistiken aus.

  5. Sie können unter „Aktionen“ auch unter „Spaltenstatistiken“ die Option „Nach Zeitplan generieren“ auswählen.

  6. Konfigurieren Sie auf der Seite Statistiken nach Zeitplan erstellen einen wiederkehrenden Zeitplan für die Ausführung der Aufgabe für Spaltenstatistiken, indem Sie die Häufigkeit und die Startzeit auswählen. Sie können wählen, ob die Häufigkeit stündlich, täglich oder wöchentlich sein soll, oder Sie können einen Cron-Ausdruck definieren, um den Zeitplan anzugeben.

    Ein Cron-Ausdruck ist eine Zeichenfolge, die ein Zeitplanmuster darstellt und aus 6 durch Leerzeichen getrennten Feldern besteht: * * * * * <minute><hour><day of month><month><day of week><year>Um beispielsweise eine Aufgabe jeden Tag um Mitternacht auszuführen, wäre der Cron-Ausdruck: 0 0 * *? *

    Weitere Informationen finden Sie unter Cron-Ausdrücke.

    Im Screenshot werden die Optionen angezeigt, die zum Generieren von Spaltenstatistiken verfügbar sind.
  7. Wählen Sie als Nächstes die Spaltenoption, um Statistiken zu generieren.

    • Alle Spalten — Wählen Sie diese Option, um Statistiken für alle Spalten in der Tabelle zu generieren.

    • Ausgewählte Spalten – Wählen Sie diese Option aus, um Statistiken für bestimmte Spalten zu generieren. Sie können die Spalten in der Dropdown-Liste auswählen.

  8. Wählen Sie eine IAM Rolle oder erstellen Sie eine bestehende Rolle, die über Berechtigungen zum Generieren von Statistiken verfügt. AWS Glue übernimmt diese Rolle, um Spaltenstatistiken zu generieren.

    Ein schnellerer Ansatz besteht darin, die AWS Glue Konsole eine Rolle für Sie erstellen zu lassen. Die von ihr erstellte Rolle dient speziell der Generierung von Spaltenstatistiken und umfasst die AWSGlueServiceRole AWS verwaltete Richtlinie sowie die erforderliche Inline-Richtlinie für die angegebene Datenquelle.

    Wenn Sie eine bestehende Rolle für die Generierung von Spaltenstatistiken angeben, stellen Sie sicher, dass sie die AWSGlueServiceRole Richtlinie oder eine gleichwertige (oder eine Version mit eingeschränktem Umfang) sowie die erforderlichen Inline-Richtlinien enthält.

  9. (Optional) Wählen Sie als Nächstes eine Sicherheitskonfiguration aus, um für Protokolle die Verschlüsselung im Ruhezustand zu aktivieren.

  10. (Optional) Sie können eine Stichprobengröße wählen, indem Sie nur einen bestimmten Prozentsatz der Zeilen aus der Tabelle angeben, um Statistiken zu generieren. Der Standardwert ist „Alle Zeilen“. Verwenden Sie die Aufwärts- und Abwärtspfeile, um den Prozentwert zu erhöhen oder zu verringern.

    Wir empfehlen, alle Zeilen in die Tabelle aufzunehmen, um genaue Statistiken zu berechnen. Verwenden Sie Beispielzeilen zur Generierung von Spaltenstatistiken nur dann, wenn Näherungswerte akzeptabel sind.

  11. Wählen Sie Statistik generieren aus, um die Aufgabe zur Generierung von Spaltenstatistiken auszuführen.

AWS CLI

Sie können das folgende AWS CLI Beispiel verwenden, um einen Zeitplan für die Generierung von Spaltenstatistiken zu erstellen. Datenbankname, Tabellenname und Rolle sind erforderliche Parameter, und optionale Parameter sind Zeitplan, Katalog-ID, Stichprobengröße und column-name-list Sicherheitskonfiguration.

aws glue create-column-statistics-task-settings \ --database-name 'database_name' \ --table-name table_name \ --role 'arn:aws:iam::123456789012:role/stats-role' \ --schedule 'cron(0 0-5 14 * * ?)' \ --column-name-list 'col-1' \ --catalog-id '123456789012' \ --sample-size '10.0 ' \ --security-configuration 'test-security'

Sie können Spaltenstatistiken auch generieren, indem Sie den Vorgang aufrufen. StartColumnStatisticsTaskRun