Menggunakan format tabel non-Hive di Amazon Athena untuk Apache Spark - Amazon Athena

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menggunakan format tabel non-Hive di Amazon Athena untuk Apache Spark

Saat Anda bekerja dengan sesi dan notebook di Athena untuk Spark, Anda dapat menggunakan tabel Linux Foundation Delta Lake, Apache Hudi, dan Apache Iceberg, selain tabel Apache Hive.

Pertimbangan dan batasan

Bila Anda menggunakan format tabel selain Apache Hive dengan Athena untuk Spark, pertimbangkan hal-hal berikut:

  • Selain Apache Hive, hanya satu format tabel yang didukung per notebook. Untuk menggunakan beberapa format tabel di Athena untuk Spark, buat buku catatan terpisah untuk setiap format tabel. Untuk informasi tentang membuat notebook di Athena untuk Spark, lihat. Membuat buku catatan Anda sendiri

  • Format tabel Delta Lake, Hudi, dan Iceberg telah diuji di Athena untuk Spark dengan menggunakan sebagai metastore. AWS Glue Anda mungkin dapat menggunakan metastores lain, tetapi penggunaan tersebut saat ini tidak didukung.

  • Untuk menggunakan format tabel tambahan, ganti spark_catalog properti default, seperti yang ditunjukkan di konsol Athena dan dalam dokumentasi ini. Katalog non-sarang ini dapat membaca tabel Hive, selain format tabelnya sendiri.

Versi tabel

Tabel berikut menunjukkan didukung versi tabel non-HIVE di Amazon Athena untuk Apache Spark.

Format tabel Versi yang didukung
Gunung Es Apache 1.2.1
Apache Hudi 0,13
Yayasan Linux Delta Lake 2.0.2

Di Athena for Spark, .jar file format tabel ini dan dependensinya dimuat ke classpath untuk driver dan pelaksana Spark.

Untuk posting Blog AWS Big Data yang menunjukkan cara bekerja dengan format tabel Iceberg, Hudi, dan Delta Lake menggunakan Spark di notebook Amazon Athena, lihat Menggunakan SQL Amazon Athena dengan Spark untuk format tabel transaksional sumber terbuka Anda. SQL