在 Athena 中使用非蜂巢表格格式進行 Spark - Amazon Athena

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

在 Athena 中使用非蜂巢表格格式進行 Spark

當您在 Athena for Spar 中搭配使用工作階段和筆記本時,除了 Apache Hive 資料表,您還可以使用 Linux Foundation Delta Lake、Apache Hudi 和 Apache Iceberg 資料表。

考量與限制

當您使用 Apache Hive 與 Athena for Spark 以外的資料表格式時,請考慮下列幾點:

  • 除了 Apache Hive 之外,每部筆記型電腦只支援一種資料表格式。若要在 Athena for Spark 中使用多種資料表格式,請為每種資料表格式建立個別的筆記本。如需有關在 Athena for Spark 中建立筆記本的資訊,請參閱 步驟 7:建立自己的筆記本

  • 三角洲湖、胡迪和冰山桌格式已在 Athena 的 Spark 上使用 AWS Glue 作為中繼存儲。您可能可以使用其他中繼存放區,但目前不支援此類用法。

  • 若要使用其他資料表格式,請覆寫 Athena 主控台和本文件中所述的預設 spark_catalog 屬性。除了其自己的資料表格式之外,這些非 Hive 目錄還可以讀取 Hive 資料表。

檔案版本

下表顯示 Amazon Athena for Apache Spark 中支援的非 Hive 資料表版本。

資料表格式 支援的版本
Apache Iceberg 1.2.1
Apache Hudi 0.13
Linux Foundation Delta Lake 2.0.2

在 Athena for Spark 中,這些資料表格式 .jar 檔案及其依賴關係會載入到 Spark 驅動程式和執行程式的類路徑中。

對於一個 AWS 大數據部落格文章說明如何使用 Amazon Athena 筆記型電腦SQL中的 Spark 使用冰山、Hudi 和三角洲湖表格式,請參閱將 Amazon Athena 搭配 Spark SQL 搭配使用開放原始碼交易表格格式。