Utilizzo di Delta Lake con Amazon EMR su EKS - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Utilizzo di Delta Lake con Amazon EMR su EKS

Delta Lake è un framework di storage open source per la creazione di un'architettura Lakehouse. Di seguito viene illustrato come configurarlo per l'uso.

Per utilizzare Delta Lake con Amazon EMR sulle EKS applicazioni
  1. Quando avvii un job per inviare un job Spark nella configurazione dell'applicazione, includi JAR i file Delta Lake:

    --job-driver '{"sparkSubmitJobDriver" : { "sparkSubmitParameters" : "--jars local:///usr/share/aws/delta/lib/delta-core.jar,local:///usr/share/aws/delta/lib/delta-storage.jar,local:///usr/share/aws/delta/lib/delta-storage-s3-dynamodb.jar"}}'
    Nota

    EMRLe versioni 7.0.0 e successive di Amazon utilizzano Delta Lake 3.0, che viene rinominato delta-core.jar in. delta-spark.jar Se utilizzi le EMR versioni di Amazon 7.0.0 o successive, assicurati di utilizzare il nome file corretto, come nell'esempio seguente:

    --jars local:///usr/share/aws/delta/lib/delta-spark.jar
  2. Includi la configurazione aggiuntiva di Delta Lake e usa AWS Glue Data Catalog come metastore.

    --configuration-overrides '{ "applicationConfiguration": [ { "classification" : "spark-defaults", "properties" : { "spark.sql.extensions" : "io.delta.sql.DeltaSparkSessionExtension", "spark.sql.catalog.spark_catalog":"org.apache.spark.sql.delta.catalog.DeltaCatalog", "spark.hadoop.hive.metastore.client.factory.class":"com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory" } }]}'