Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Utilizzo di Delta Lake con Amazon EMR su EKS
Delta Lake è un framework di storage open source per la creazione di un'architettura Lakehouse. Di seguito viene illustrato come configurarlo per l'uso.
Per utilizzare Delta Lake con Amazon EMR sulle EKS applicazioni
-
Quando avvii un job per inviare un job Spark nella configurazione dell'applicazione, includi JAR i file Delta Lake:
--job-driver '{"sparkSubmitJobDriver" : { "sparkSubmitParameters" : "--jars local:///usr/share/aws/delta/lib/delta-core.jar,local:///usr/share/aws/delta/lib/delta-storage.jar,local:///usr/share/aws/delta/lib/delta-storage-s3-dynamodb.jar"}}'
Nota
EMRLe versioni 7.0.0 e successive di Amazon utilizzano Delta Lake 3.0, che viene rinominato
delta-core.jar
in.delta-spark.jar
Se utilizzi le EMR versioni di Amazon 7.0.0 o successive, assicurati di utilizzare il nome file corretto, come nell'esempio seguente:--jars local:///usr/share/aws/delta/lib/delta-spark.jar
-
Includi la configurazione aggiuntiva di Delta Lake e usa AWS Glue Data Catalog come metastore.
--configuration-overrides '{ "applicationConfiguration": [ { "classification" : "spark-defaults", "properties" : { "spark.sql.extensions" : "io.delta.sql.DeltaSparkSessionExtension", "spark.sql.catalog.spark_catalog":"org.apache.spark.sql.delta.catalog.DeltaCatalog", "spark.hadoop.hive.metastore.client.factory.class":"com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory" } }]}'