EMR Serverless에서 AWS Glue 다중 카탈로그 계층 구조 작업 - Amazon EMR

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

EMR Serverless에서 AWS Glue 다중 카탈로그 계층 구조 작업

AWS Glue 다중 카탈로그 계층 구조로 작동하도록 EMR Serverless 애플리케이션을 구성할 수 있습니다. 다음 예제에서는 Glue 다중 카탈로그 계층 구조에서 AWS EMR-S Spark를 사용하는 방법을 보여줍니다.

다중 카탈로그 계층 구조에 대한 자세한 내용은 Amazon에서 Spark를 사용하여 AWS Glue Data Catalog의 다중 카탈로그 계층 구조 작업을 참조하세요EMR.

Iceberg 및 AWS Glue 데이터 카탈로그에서 Redshift Managed Storage(RMS) 사용

다음은 Iceberg와 AWS Glue 데이터 카탈로그의 통합을 위해 Spark를 구성하는 방법을 보여줍니다.

aws emr-serverless start-job-run \ --application-id application-id \ --execution-role-arn job-role-arn \ --job-driver '{ "sparkSubmit": { "entryPoint": "s3://amzn-s3-demo-bucket/myscript.py", "sparkSubmitParameters": "--conf spark.sql.catalog.nfgac_rms = org.apache.iceberg.spark.SparkCatalog --conf spark.sql.catalog.rms.type=glue --conf spark.sql.catalog.rms.glue.id=Glue RMS catalog ID --conf spark.sql.defaultCatalog=rms --conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions" } }'

통합 후 카탈로그의 테이블에서 샘플 쿼리:

SELECT * FROM my_rms_schema.my_table

Iceberg REST API 및 AWS Glue 데이터 카탈로그에서 Redshift Managed Storage(RMS) 사용

다음은 Iceberg REST 카탈로그와 함께 작동하도록 Spark를 구성하는 방법을 보여줍니다.

aws emr-serverless start-job-run \ --application-id application-id \ --execution-role-arn job-role-arn \ --job-driver '{ "sparkSubmit": { "entryPoint": "s3://amzn-s3-demo-bucket/myscript.py", "sparkSubmitParameters": " --conf spark.sql.catalog.rms=org.apache.iceberg.spark.SparkCatalog --conf spark.sql.catalog.rms.type=rest --conf spark.sql.catalog.rms.warehouse=Glue RMS catalog ID --conf spark.sql.catalog.rms.uri=Glue endpoint URI/iceberg --conf spark.sql.catalog.rms.rest.sigv4-enabled=true --conf spark.sql.catalog.rms.rest.signing-name=glue --conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions" } }'

카탈로그의 테이블에서 샘플 쿼리:

SELECT * FROM my_rms_schema.my_table