Arbeiten mit der Multi-Katalog-Hierarchie von AWS Glue auf Serverless EMR - Amazon EMR

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Arbeiten mit der Multi-Katalog-Hierarchie von AWS Glue auf Serverless EMR

Sie können Ihre EMR serverlosen Anwendungen so konfigurieren, dass sie mit der AWS Glue-Hierarchie mit mehreren Katalogen funktionieren. Das folgende Beispiel zeigt, wie EMR -S Spark mit der Multi-Katalog-Hierarchie von AWS Glue verwendet wird.

Weitere Informationen zur Hierarchie mit mehreren Katalogen finden Sie unter Arbeiten mit einer Hierarchie mit mehreren Katalogen in AWS Glue Data Catalog with Spark auf Amazon. EMR

Verwenden von Redshift Managed Storage (RMS) mit Iceberg und AWS Glue Data Catalog

Im Folgenden wird gezeigt, wie Spark für die Integration mit einem AWS Glue-Datenkatalog mit Iceberg konfiguriert wird:

aws emr-serverless start-job-run \ --application-id application-id \ --execution-role-arn job-role-arn \ --job-driver '{ "sparkSubmit": { "entryPoint": "s3://amzn-s3-demo-bucket/myscript.py", "sparkSubmitParameters": "--conf spark.sql.catalog.nfgac_rms = org.apache.iceberg.spark.SparkCatalog --conf spark.sql.catalog.rms.type=glue --conf spark.sql.catalog.rms.glue.id=Glue RMS catalog ID --conf spark.sql.defaultCatalog=rms --conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions" } }'

Eine Beispielabfrage aus einer Tabelle im Katalog nach der Integration:

SELECT * FROM my_rms_schema.my_table

Verwenden von Redshift Managed Storage (RMS) mit Iceberg REST API und AWS Glue Data Catalog

Im Folgenden wird gezeigt, wie Spark für die Verwendung mit dem REST Iceberg-Katalog konfiguriert wird:

aws emr-serverless start-job-run \ --application-id application-id \ --execution-role-arn job-role-arn \ --job-driver '{ "sparkSubmit": { "entryPoint": "s3://amzn-s3-demo-bucket/myscript.py", "sparkSubmitParameters": " --conf spark.sql.catalog.rms=org.apache.iceberg.spark.SparkCatalog --conf spark.sql.catalog.rms.type=rest --conf spark.sql.catalog.rms.warehouse=Glue RMS catalog ID --conf spark.sql.catalog.rms.uri=Glue endpoint URI/iceberg --conf spark.sql.catalog.rms.rest.sigv4-enabled=true --conf spark.sql.catalog.rms.rest.signing-name=glue --conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions" } }'

Eine Beispielabfrage aus einer Tabelle im Katalog:

SELECT * FROM my_rms_schema.my_table