Uso de Delta Lake con Amazon EMR en EKS
Delta Lake es un marco de almacenamiento de código abierto para crear una arquitectura de Lakehouse. A continuación, se muestra cómo configurarlo para su uso.
Para usar Delta Lake con Amazon EMR en aplicaciones de EKS
-
Cuando inicie una ejecución de trabajo para enviar una tarea de Spark en la configuración de la aplicación, incluya los archivos JAR de Delta Lake:
--job-driver '{"sparkSubmitJobDriver" : { "sparkSubmitParameters" : "--jars local:///usr/share/aws/delta/lib/delta-core.jar,local:///usr/share/aws/delta/lib/delta-storage.jar,local:///usr/share/aws/delta/lib/delta-storage-s3-dynamodb.jar"}}'
nota
Las versiones 7.0.0 y posteriores de Amazon EMR utilizan Delta Lake 3.0, que cambia el nombre de
delta-core.jar
adelta-spark.jar
. Si utiliza las versiones 7.0.0 o posteriores de Amazon EMR, asegúrese de utilizar el nombre de archivo correcto, como en el siguiente ejemplo:--jars local:///usr/share/aws/delta/lib/delta-spark.jar
-
Incluya la configuración adicional de Delta Lake y utilice el Catálogo de datos de AWS Glue como metaalmacén.
--configuration-overrides '{ "applicationConfiguration": [ { "classification" : "spark-defaults", "properties" : { "spark.sql.extensions" : "io.delta.sql.DeltaSparkSessionExtension", "spark.sql.catalog.spark_catalog":"org.apache.spark.sql.delta.catalog.DeltaCatalog", "spark.hadoop.hive.metastore.client.factory.class":"com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory" } }]}'