Trabalhando com a hierarquia de vários catálogos do AWS Glue no Serverless EMR - Amazon EMR

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Trabalhando com a hierarquia de vários catálogos do AWS Glue no Serverless EMR

Você pode configurar seus aplicativos EMR sem servidor para trabalhar com a hierarquia de vários catálogos do AWS Glue. O exemplo a seguir mostra como usar o EMR -S Spark com a hierarquia de vários catálogos do AWS Glue.

Para saber mais sobre a hierarquia de vários catálogos, consulte Como trabalhar com uma hierarquia de vários catálogos no AWS Glue Data Catalog with Spark na Amazon. EMR

Usando o Redshift Managed Storage (RMS) com o Iceberg e o Glue Data Catalog AWS

Veja a seguir como configurar o Spark para integração com um AWS Glue Data Catalog com o Iceberg:

aws emr-serverless start-job-run \ --application-id application-id \ --execution-role-arn job-role-arn \ --job-driver '{ "sparkSubmit": { "entryPoint": "s3://amzn-s3-demo-bucket/myscript.py", "sparkSubmitParameters": "--conf spark.sql.catalog.nfgac_rms = org.apache.iceberg.spark.SparkCatalog --conf spark.sql.catalog.rms.type=glue --conf spark.sql.catalog.rms.glue.id=Glue RMS catalog ID --conf spark.sql.defaultCatalog=rms --conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions" } }'

Um exemplo de consulta de uma tabela no catálogo, após a integração:

SELECT * FROM my_rms_schema.my_table

Usando o Redshift Managed Storage (RMS) com o Iceberg e o REST API Glue Data Catalog AWS

Veja a seguir como configurar o Spark para funcionar com o catálogo Iceberg: REST

aws emr-serverless start-job-run \ --application-id application-id \ --execution-role-arn job-role-arn \ --job-driver '{ "sparkSubmit": { "entryPoint": "s3://amzn-s3-demo-bucket/myscript.py", "sparkSubmitParameters": " --conf spark.sql.catalog.rms=org.apache.iceberg.spark.SparkCatalog --conf spark.sql.catalog.rms.type=rest --conf spark.sql.catalog.rms.warehouse=Glue RMS catalog ID --conf spark.sql.catalog.rms.uri=Glue endpoint URI/iceberg --conf spark.sql.catalog.rms.rest.sigv4-enabled=true --conf spark.sql.catalog.rms.rest.signing-name=glue --conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions" } }'

Um exemplo de consulta de uma tabela no catálogo:

SELECT * FROM my_rms_schema.my_table