Uso de Delta Lake con Amazon EMR en EKS - Amazon EMR

Uso de Delta Lake con Amazon EMR en EKS

Delta Lake es un marco de almacenamiento de código abierto para crear una arquitectura de Lakehouse. A continuación, se muestra cómo configurarlo para su uso.

Para usar Delta Lake con Amazon EMR en aplicaciones de EKS
  1. Cuando inicie una ejecución de trabajo para enviar una tarea de Spark en la configuración de la aplicación, incluya los archivos JAR de Delta Lake:

    --job-driver '{"sparkSubmitJobDriver" : { "sparkSubmitParameters" : "--jars local:///usr/share/aws/delta/lib/delta-core.jar,local:///usr/share/aws/delta/lib/delta-storage.jar,local:///usr/share/aws/delta/lib/delta-storage-s3-dynamodb.jar"}}'
    nota

    Las versiones 7.0.0 y posteriores de Amazon EMR utilizan Delta Lake 3.0, que cambia el nombre de delta-core.jar a delta-spark.jar. Si utiliza las versiones 7.0.0 o posteriores de Amazon EMR, asegúrese de utilizar el nombre de archivo correcto, como en el siguiente ejemplo:

    --jars local:///usr/share/aws/delta/lib/delta-spark.jar
  2. Incluya la configuración adicional de Delta Lake y utilice el Catálogo de datos de AWS Glue como metaalmacén.

    --configuration-overrides '{ "applicationConfiguration": [ { "classification" : "spark-defaults", "properties" : { "spark.sql.extensions" : "io.delta.sql.DeltaSparkSessionExtension", "spark.sql.catalog.spark_catalog":"org.apache.spark.sql.delta.catalog.DeltaCatalog", "spark.hadoop.hive.metastore.client.factory.class":"com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory" } }]}'