EMR Serverless에서 Apache Hudi 사용 - Amazon EMR

EMR Serverless에서 Apache Hudi 사용

이 섹션에서는 EMR Serverless 애플리케이션에서 Apache Hudi를 사용하는 방법을 설명합니다. Hudi는 데이터 처리를 더 간단하게 수행하도록 지원하는 데이터 관리 프레임워크입니다.

EMR Serverless 애플리케이션에서 Apache Hudi를 사용하는 방법
  1. 해당 Spark 작업 실행에서 필요한 Spark 속성을 설정합니다.

    spark.jars=/usr/lib/hudi/hudi-spark-bundle.jar spark.serializer=org.apache.spark.serializer.KryoSerializer
  2. Hudi 테이블을 구성된 카탈로그에 동기화하려면 AWS Glue Data Catalog를 메타스토어로 지정하거나 외부 메타스토어를 구성합니다. EMR Serverless는 Hudi 워크로드에 대해 Hive 테이블의 동기화 모드로 hms를 지원합니다. EMR Serverless는 이 속성을 기본적으로 활성화합니다. 메타스토어를 설정하는 방법에 대한 자세한 내용은 EMR Serverless에 대한 메타스토어 구성 섹션을 참조하세요.

    중요

    EMR Serverless는 Hudi 워크로드를 처리하기 위해 Hive 테이블에서 동기화 모드 옵션으로 HIVEQL 또는 JDBC를 지원하지 않습니다. 자세한 내용은 Sync modes를 참조하세요.

    AWS Glue Data Catalog를 메타스토어로 사용하는 경우 Hudi 작업에 대해 다음 구성 속성을 지정할 수 있습니다.

    --conf spark.jars=/usr/lib/hudi/hudi-spark-bundle.jar, --conf spark.serializer=org.apache.spark.serializer.KryoSerializer, --conf spark.hadoop.hive.metastore.client.factory.class=com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory

Amazon EMR의 Apache Hudi 릴리스 버전에 대한 자세한 내용은 Hudi 릴리스 기록을 참조하세요.