在 EMR上使用 Delta Lake 搭配 Amazon EKS - Amazon EMR

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

在 EMR上使用 Delta Lake 搭配 Amazon EKS

Delta Lake 是用於建置 Lakehouse 架構的開放原始碼儲存架構。下列顯示如何將其設定為使用。

在EKS應用程式EMR上使用 Delta Lake 搭配 Amazon
  1. 當您開始執行任務以在應用程式組態中提交 Spark 任務時,請包含 Delta Lake JAR 檔案:

    --job-driver '{"sparkSubmitJobDriver" : { "sparkSubmitParameters" : "--jars local:///usr/share/aws/delta/lib/delta-core.jar,local:///usr/share/aws/delta/lib/delta-storage.jar,local:///usr/share/aws/delta/lib/delta-storage-s3-dynamodb.jar"}}'
    注意

    Amazon 7.0.0 版和更新EMR版本使用 Delta Lake 3.0,其重新命名delta-core.jardelta-spark.jar。如果您使用 Amazon 7.0.0 EMR 版或更新版本,請務必使用正確的檔案名稱,例如下列範例:

    --jars local:///usr/share/aws/delta/lib/delta-spark.jar
  2. 包含 Delta Lake 其他組態,並使用 AWS Glue Data Catalog 作為您的中繼存放區。

    --configuration-overrides '{ "applicationConfiguration": [ { "classification" : "spark-defaults", "properties" : { "spark.sql.extensions" : "io.delta.sql.DeltaSparkSessionExtension", "spark.sql.catalog.spark_catalog":"org.apache.spark.sql.delta.catalog.DeltaCatalog", "spark.hadoop.hive.metastore.client.factory.class":"com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory" } }]}'