Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Sie können Athena verwenden, um Tabellen zu erstellen, die für ETL Jobs verwendet AWS Glue werden können. AWS Glue Jobs führen ETL Operationen aus. Ein AWS Glue Job führt ein Skript aus, das Daten aus Quellen extrahiert, die Daten transformiert und in Ziele lädt. Weitere Informationen finden Sie unter Authoring Jobs in AWS Glue im AWS Glue Developer Guide.
Athena-Tabellen für AWS Glue ETL Jobs erstellen
Innerhalb von Athena erstellte Tabellen benötigen eine Tabelleneigenschaft namens classification
, über die das Format der Daten identifiziert wird. Dies ermöglicht es AWS Glue , die Tabellen für ETL Jobs zu verwenden. Die Klassifizierungswerte können avro
, csv
, json
, orc
, parquet
oder xml
sein. Es folgt ein Beispiel für eine CREATE TABLE
-Anweisung in Athena:
CREATE EXTERNAL TABLE sampleTable (
column1 INT,
column2 INT
) STORED AS PARQUET
TBLPROPERTIES (
'classification'='parquet')
Wenn die classification
Tabelleneigenschaft bei der Erstellung der Tabelle nicht hinzugefügt wurde, können Sie sie über die AWS Glue Konsole hinzufügen.
So fügen Sie die Eigenschaft der Klassifikationstabelle mithilfe der AWS Glue Konsole hinzu
Melden Sie sich bei der an AWS Management Console und öffnen Sie die AWS Glue Konsole unter https://console.aws.amazon.com/glue/
. -
Wählen Sie im Navigationsbereich der Konsole Tables (Tabellen) aus.
-
Wählen Sie den Link für die Tabelle, die Sie bearbeiten möchten. Wählen Sie dann Action (Aktion), Edit table (Tabelle bearbeiten).
-
Scrollen Sie nach unten zum Abschnitt Table properties (Tabelleneigenschaften).
-
Wählen Sie Hinzufügen aus.
-
Geben Sie für Key (Schlüssel)
classification
ein. -
Für Value (Wert), geben Sie einen Datentyp ein (z. B.
json
). -
Wählen Sie Save (Speichern) aus.
Im Abschnitt Table details (Angaben zur Tabelle) erscheint der von Ihnen eingegebene Datentyp im Feld Classification (Klassifizierung) der Tabelle.
Weitere Informationen finden Sie unter Working with Tables (Arbeiten mit Tabellen) im AWS Glue -Entwicklerhandbuch.
Verwenden Sie ETL Jobs, um die Abfrageleistung zu optimieren
AWS Glue Jobs können Ihnen helfen, Daten in ein Format umzuwandeln, das die Abfrageleistung in Athena optimiert. Datenformate wirken sich erheblich auf die Abfrageleistung und Abfragekosten in Athena aus.
AWS Glue unterstützt das Schreiben in die Parquet- und ORC Datenformate. Sie können diese Funktion verwenden, um Ihre Daten für die Verwendung in Athena zu transformieren. Weitere Informationen zur Verwendung von Parquet und ORC anderen Möglichkeiten zur Leistungssteigerung in Athena finden Sie unter Die 10 besten Tipps zur Leistungsoptimierung für Amazon Athena
Anmerkung
Um die Wahrscheinlichkeit zu verringern, dass Athena die SMALLINT
von einem AWS Glue ETL Job erzeugten TINYINT
Datentypen nicht lesen kann, konvertieren Sie SMALLINT
und TINYINT
zu, INT
wenn Sie einen ETL Job erstellen, der Daten konvertiert ORC in.
Automatisieren Sie AWS Glue Jobs für ETL
Sie können AWS Glue ETL Jobs so konfigurieren, dass sie automatisch auf der Grundlage von Triggern ausgeführt werden. Diese Funktion ist ideal, wenn Daten von außen AWS in einem ansonsten suboptimalen Format für Abfragen in Athena in einen Amazon S3 S3-Bucket übertragen werden. Weitere Informationen finden Sie unter AWS Glue Jobs auslösen im Entwicklerhandbuch.AWS Glue