Amazon EMR on EKS에서 Delta Lake 사용 - Amazon EMR

Amazon EMR on EKS에서 Delta Lake 사용

Delta Lake는 Lakehouse 아키텍처를 빌드하기 위한 오픈 소스 스토리지 프레임워크입니다. 다음 예제에서는 사용하도록 설정하는 방법을 보여줍니다.

Amazon EMR on EKS 애플리케이션에서 Delta Lake를 사용하는 방법
  1. 애플리케이션 구성에서 Spark 작업을 제출하기 위해 작업 실행을 시작하는 경우 Delta Lake JAR 파일을 포함합니다.

    --job-driver '{"sparkSubmitJobDriver" : { "sparkSubmitParameters" : "--jars local:///usr/share/aws/delta/lib/delta-core.jar,local:///usr/share/aws/delta/lib/delta-storage.jar,local:///usr/share/aws/delta/lib/delta-storage-s3-dynamodb.jar"}}'
    참고

    Amazon EMR 릴리스 7.0.0 이상은 Delta Lake 3.0(delta-core.jar 이름이 delta-spark.jar로 바뀜)을 사용합니다. Amazon EMR 릴리스 7.0.0 이상을 사용하는 경우 다음 예제와 같이 올바른 파일 이름을 사용해야 합니다.

    --jars local:///usr/share/aws/delta/lib/delta-spark.jar
  2. Delta Lake 추가 구성을 포함하고 AWS Glue 데이터 카탈로그를 메타스토어로 사용합니다.

    --configuration-overrides '{ "applicationConfiguration": [ { "classification" : "spark-defaults", "properties" : { "spark.sql.extensions" : "io.delta.sql.DeltaSparkSessionExtension", "spark.sql.catalog.spark_catalog":"org.apache.spark.sql.delta.catalog.DeltaCatalog", "spark.hadoop.hive.metastore.client.factory.class":"com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory" } }]}'