EMR Serverless AWS での Glue マルチカタログ階層の使用 - Amazon EMR

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

EMR Serverless AWS での Glue マルチカタログ階層の使用

AWS Glue マルチカタログ階層で動作するようにEMRサーバーレスアプリケーションを設定できます。次の例は、 Glue マルチカタログ階層で EMR-S Spark AWS を使用する方法を示しています。

マルチカタログ階層の詳細については、「Amazon の Spark で AWS Glue Data Catalog でマルチカタログ階層を使用するEMR」を参照してください。

Iceberg と Glue データカタログでの Redshift マネージドストレージ (RMS) AWS の使用

以下は、Iceberg と Glue データカタログを統合するように Spark AWS を設定する方法を示しています。

aws emr-serverless start-job-run \ --application-id application-id \ --execution-role-arn job-role-arn \ --job-driver '{ "sparkSubmit": { "entryPoint": "s3://amzn-s3-demo-bucket/myscript.py", "sparkSubmitParameters": "--conf spark.sql.catalog.nfgac_rms = org.apache.iceberg.spark.SparkCatalog --conf spark.sql.catalog.rms.type=glue --conf spark.sql.catalog.rms.glue.id=Glue RMS catalog ID --conf spark.sql.defaultCatalog=rms --conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions" } }'

統合後のカタログ内のテーブルからのサンプルクエリ:

SELECT * FROM my_rms_schema.my_table

Iceberg RESTAPIと Glue データカタログでの Redshift マネージドストレージ (RMS) AWS の使用

以下は、Iceberg RESTカタログで動作するように Spark を設定する方法を示しています。

aws emr-serverless start-job-run \ --application-id application-id \ --execution-role-arn job-role-arn \ --job-driver '{ "sparkSubmit": { "entryPoint": "s3://amzn-s3-demo-bucket/myscript.py", "sparkSubmitParameters": " --conf spark.sql.catalog.rms=org.apache.iceberg.spark.SparkCatalog --conf spark.sql.catalog.rms.type=rest --conf spark.sql.catalog.rms.warehouse=Glue RMS catalog ID --conf spark.sql.catalog.rms.uri=Glue endpoint URI/iceberg --conf spark.sql.catalog.rms.rest.sigv4-enabled=true --conf spark.sql.catalog.rms.rest.signing-name=glue --conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions" } }'

カタログ内のテーブルからのサンプルクエリ:

SELECT * FROM my_rms_schema.my_table