Verwenden Sie in Athena for Spark Tabellenformate, die nicht von Hive stammen - Amazon Athena

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Verwenden Sie in Athena for Spark Tabellenformate, die nicht von Hive stammen

Wenn Sie in Athena für Spark mit Sessions und Notebooks arbeiten, können Sie neben Apache-Hive-Tabellen auch Linux-Foundation-Delta-Lake-, Apache-Hudi- und Apache-Iceberg-Tabellen verwenden.

Überlegungen und Einschränkungen

Wenn Sie andere Tabellenformate als Apache Hive mit Athena für Spark verwenden, sollten Sie die folgenden Punkte berücksichtigen:

  • Zusätzlich zu Apache Hive wird nur ein Tabellenformat pro Notebook unterstützt. Um mehrere Tabellenformate in Athena für Spark zu verwenden, erstellen Sie für jedes Tabellenformat ein separates Notizbuch. Informationen zum Erstellen von Notebooks in Athena für Spark finden Sie unter Schritt 7: Erstellen Sie Ihr eigenes Notizbuch.

  • Die Tabellenformate Delta Lake, Hudi und Iceberg wurden auf Athena for Spark getestet, indem AWS Glue wie der Metastore. Möglicherweise können Sie andere Metastores verwenden, aber eine solche Verwendung wird derzeit nicht unterstützt.

  • Um die zusätzlichen Tabellenformate zu verwenden, überschreiben Sie die spark_catalog-Standardeigenschaft, wie in der Athena-Konsole und in dieser Dokumentation angegeben. Diese Nicht-Hive-Kataloge können zusätzlich zu ihren eigenen Tabellenformaten Hive-Tabellen lesen.

Tabellenversionen

Die folgende Tabelle zeigt die unterstützten Nicht-Hive-Tabellenversionen in Amazon Athena für Apache Spark.

Tabellenformat Unterstützte Version
Apache Iceberg 1.2.1
Apache Hudi 0,13
Linux Foundation Delta Lake 2.0.2

In Athena für Spark werden diese .jar-Dateien im Tabellenformat und ihre Abhängigkeiten in den Klassenpfad für Spark-Treiber und -Ausführern geladen.

Für ein AWS Big-Data-Blogbeitrag, der zeigt, wie Sie mit den Tabellenformaten Iceberg, Hudi und Delta Lake mithilfe von Spark SQL in Amazon Athena-Notizbüchern arbeiten können, finden Sie unter Verwenden von Amazon Athena mit Spark SQL für Ihre Open-Source-Transaktionstabellenformate.