Optimieren Sie Abfragen mit AWS Glue Partitionsindexierung und Filterung - Amazon Athena

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Optimieren Sie Abfragen mit AWS Glue Partitionsindexierung und Filterung

Wenn Athena partitionierte Tabellen abfragt, ruft es die verfügbaren Tabellenpartitionen ab und filtert sie nach der für Ihre Abfrage relevanten Teilmenge. Wenn neue Daten und Partitionen hinzugefügt werden, ist mehr Zeit für die Verarbeitung der Partitionen erforderlich, und die Abfragelaufzeit kann sich erhöhen. Wenn Sie eine Tabelle mit einer großen Anzahl von Partitionen haben, die im Laufe der Zeit wächst, sollten Sie die AWS Glue -Partitionsindizierung und -filterung verwenden. Die Partitionsindizierung ermöglicht Athena, die Partitionsverarbeitung zu optimieren und die Abfrageleistung für stark partitionierte Tabellen zu verbessern. Das Einrichten der Partitionsfilterung in den Eigenschaften einer Tabelle ist ein zweistufiger Prozess:

  1. Erstellen eines Partitionsindex in AWS Glue.

  2. Aktivieren der Partitionsfilterung für die Tabelle.

Erstellen eines Partitionsindex

Anweisungen zum Erstellen eines Partitionsindexes in AWS Glue finden Sie unter Arbeiten mit Partitionsindizes im AWS Glue Entwicklerhandbuch. Informationen zu den Einschränkungen von Partitionsindizes finden Sie im AWS Glue Abschnitt Über Partitionsindizes auf dieser Seite.

Aktivieren der Partitionsfilterung

Um die Partitionsfilterung für die Tabelle zu aktivieren, müssen Sie eine neue Tabelleneigenschaft in AWS Glue festlegen. Anweisungen zum Einstellen von Tabelleneigenschaften finden Sie auf der Seite Partitionsprojektion einrichten. AWS Glue Wenn Sie die Tabellendetails in bearbeiten AWS Glue, fügen Sie dem Abschnitt Tabelleneigenschaften das folgende Schlüssel-Wert-Paar hinzu:

  • Fügen Sie für Key (Schlüssel) partition_filtering.enabled hinzu

  • Fügen Sie für Wert true hinzu

Sie können die Partitionsfilterung für diese Tabelle jederzeit deaktivieren, indem Sie den Wert partition_filtering.enabled auf false setzen.

Nachdem Sie die obigen Schritte ausgeführt haben, können Sie zur Athena-Konsole zurückkehren, um die Daten abzufragen.

Weitere Informationen zur Verwendung von Partitionsindizierung und Filterung finden Sie unter Verbessern der Amazon Athena Athena-Abfrageleistung mithilfe von AWS Glue Data Catalog Partitionsindizes im AWS Big Data-Blog.