EMR Serverless에서 Apache Hudi 사용
이 섹션에서는 EMR Serverless 애플리케이션에서 Apache Hudi를 사용하는 방법을 설명합니다. Hudi는 데이터 처리를 더 간단하게 수행하도록 지원하는 데이터 관리 프레임워크입니다.
EMR Serverless 애플리케이션에서 Apache Hudi를 사용하는 방법
-
해당 Spark 작업 실행에서 필요한 Spark 속성을 설정합니다.
spark.jars=/usr/lib/hudi/hudi-spark-bundle.jar spark.serializer=org.apache.spark.serializer.KryoSerializer
-
Hudi 테이블을 구성된 카탈로그에 동기화하려면 AWS Glue Data Catalog를 메타스토어로 지정하거나 외부 메타스토어를 구성합니다. EMR Serverless는 Hudi 워크로드에 대해 Hive 테이블의 동기화 모드로
hms
를 지원합니다. EMR Serverless는 이 속성을 기본적으로 활성화합니다. 메타스토어를 설정하는 방법에 대한 자세한 내용은 EMR Serverless에 대한 메타스토어 구성 섹션을 참조하세요.중요
EMR Serverless는 Hudi 워크로드를 처리하기 위해 Hive 테이블에서 동기화 모드 옵션으로
HIVEQL
또는JDBC
를 지원하지 않습니다. 자세한 내용은 Sync modes를 참조하세요. AWS Glue Data Catalog를 메타스토어로 사용하는 경우 Hudi 작업에 대해 다음 구성 속성을 지정할 수 있습니다.
--conf spark.jars=/usr/lib/hudi/hudi-spark-bundle.jar, --conf spark.serializer=org.apache.spark.serializer.KryoSerializer, --conf spark.hadoop.hive.metastore.client.factory.class=com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory
Amazon EMR의 Apache Hudi 릴리스 버전에 대한 자세한 내용은 Hudi 릴리스 기록을 참조하세요.