本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
在 Athena 中使用非蜂巢表格格式進行 Spark
當您在 Athena for Spar 中搭配使用工作階段和筆記本時,除了 Apache Hive 資料表,您還可以使用 Linux Foundation Delta Lake、Apache Hudi 和 Apache Iceberg 資料表。
考量與限制
當您使用 Apache Hive 與 Athena for Spark 以外的資料表格式時,請考慮下列幾點:
-
除了 Apache Hive 之外,每部筆記型電腦只支援一種資料表格式。若要在 Athena for Spark 中使用多種資料表格式,請為每種資料表格式建立個別的筆記本。如需有關在 Athena for Spark 中建立筆記本的資訊,請參閱 步驟 7:建立自己的筆記本。
-
三角洲湖、胡迪和冰山桌格式已在 Athena 的 Spark 上使用 AWS Glue 作為中繼存儲。您可能可以使用其他中繼存放區,但目前不支援此類用法。
-
若要使用其他資料表格式,請覆寫 Athena 主控台和本文件中所述的預設
spark_catalog
屬性。除了其自己的資料表格式之外,這些非 Hive 目錄還可以讀取 Hive 資料表。
檔案版本
下表顯示 Amazon Athena for Apache Spark 中支援的非 Hive 資料表版本。
資料表格式 | 支援的版本 |
---|---|
Apache Iceberg | 1.2.1 |
Apache Hudi | 0.13 |
Linux Foundation Delta Lake | 2.0.2 |
在 Athena for Spark 中,這些資料表格式 .jar
檔案及其依賴關係會載入到 Spark 驅動程式和執行程式的類路徑中。
對於一個 AWS 大數據部落格文章說明如何使用 Amazon Athena 筆記型電腦SQL中的 Spark 使用冰山、Hudi 和三角洲湖表格式,請參閱將 Amazon Athena 搭配 Spark SQL 搭配使用開放原始碼交易表