Uso de Apache Iceberg con Amazon EMR en EKS
El JAR de tiempo de ejecución de Iceberg contiene las clases de Iceberg necesarias para la compatibilidad con el tiempo de ejecución de Spark. En el siguiente procedimiento, se muestra cómo iniciar la ejecución de un trabajo mediante el tiempo de ejecución de Iceberg Spark.
Para usar Apache Iceberg con aplicaciones de Amazon EMR en EKS
-
Cuando inicie la ejecución de un trabajo para enviar un trabajo de Spark en la configuración de la aplicación, incluya el archivo JAR del tiempo de ejecución de Iceberg Spark:
--job-driver '{"sparkSubmitJobDriver" : {"sparkSubmitParameters" : "--jars local:///usr/share/aws/iceberg/lib/iceberg-spark3-runtime.jar"}}'
-
Incluya la configuración adicional de Iceberg:
--configuration-overrides '{ "applicationConfiguration": [ "classification" : "spark-defaults", "properties" : { "spark.sql.catalog.dev.warehouse" : "s3://amzn-s3-demo-bucket/EXAMPLE-PREFIX/ ", "spark.sql.extensions ":" org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions ", "spark.sql.catalog.dev" : "org.apache.iceberg.spark.SparkCatalog", "spark.sql.catalog.dev.catalog-impl" : "org.apache.iceberg.aws.glue.GlueCatalog", "spark.sql.catalog.dev.io-impl": "org.apache.iceberg.aws.s3.S3FileIO" } ] }'
Para obtener más información sobre las versiones de lanzamiento de Apache Iceberg de EMR, consulte Historial de versiones de Iceberg.