本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
在 EMR上使用 Delta Lake 搭配 Amazon EKS
Delta Lake 是用於建置 Lakehouse 架構的開放原始碼儲存架構。下列顯示如何將其設定為使用。
在EKS應用程式EMR上使用 Delta Lake 搭配 Amazon
-
當您開始執行任務以在應用程式組態中提交 Spark 任務時,請包含 Delta Lake JAR 檔案:
--job-driver '{"sparkSubmitJobDriver" : { "sparkSubmitParameters" : "--jars local:///usr/share/aws/delta/lib/delta-core.jar,local:///usr/share/aws/delta/lib/delta-storage.jar,local:///usr/share/aws/delta/lib/delta-storage-s3-dynamodb.jar"}}'
注意
Amazon 7.0.0 版和更新EMR版本使用 Delta Lake 3.0,其重新命名
delta-core.jar
為delta-spark.jar
。如果您使用 Amazon 7.0.0 EMR 版或更新版本,請務必使用正確的檔案名稱,例如下列範例:--jars local:///usr/share/aws/delta/lib/delta-spark.jar
-
包含 Delta Lake 其他組態,並使用 AWS Glue Data Catalog 作為您的中繼存放區。
--configuration-overrides '{ "applicationConfiguration": [ { "classification" : "spark-defaults", "properties" : { "spark.sql.extensions" : "io.delta.sql.DeltaSparkSessionExtension", "spark.sql.catalog.spark_catalog":"org.apache.spark.sql.delta.catalog.DeltaCatalog", "spark.hadoop.hive.metastore.client.factory.class":"com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory" } }]}'