Menggunakan Apache Iceberg dengan Amazon EMR EKS - Amazon EMR

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menggunakan Apache Iceberg dengan Amazon EMR EKS

Runtime JAR untuk Iceberg berisi kelas Iceberg yang diperlukan untuk dukungan runtime Spark. Prosedur berikut menunjukkan cara memulai pekerjaan dengan menggunakan runtime Iceberg spark.

Untuk menggunakan Apache Iceberg dengan Amazon pada aplikasi EMR EKS
  1. Saat Anda memulai pekerjaan untuk mengirimkan pekerjaan Spark dalam konfigurasi aplikasi, sertakan file runtime Iceberg spark: JAR

    --job-driver '{"sparkSubmitJobDriver" : {"sparkSubmitParameters" : "--jars local:///usr/share/aws/iceberg/lib/iceberg-spark3-runtime.jar"}}'
  2. Sertakan konfigurasi tambahan Iceberg:

    --configuration-overrides '{ "applicationConfiguration": [ "classification" : "spark-defaults", "properties" : { "spark.sql.catalog.dev.warehouse" : "s3://amzn-s3-demo-bucket/EXAMPLE-PREFIX/ ", "spark.sql.extensions ":" org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions ", "spark.sql.catalog.dev" : "org.apache.iceberg.spark.SparkCatalog", "spark.sql.catalog.dev.catalog-impl" : "org.apache.iceberg.aws.glue.GlueCatalog", "spark.sql.catalog.dev.io-impl": "org.apache.iceberg.aws.s3.S3FileIO" } ] }'

Untuk mempelajari lebih lanjut tentang versi rilis Apache IcebergEMR, lihat Riwayat rilis Iceberg.

Konfigurasi sesi percikan untuk integrasi katalog

Konfigurasi sesi percikan untuk integrasi katalog Iceberg AWS Glue

Contoh ini menunjukkan cara mengintegrasikan Iceberg dengan: Perayap AWS Glue

spark-sql \ --conf spark.sql.catalog.rms = org.apache.iceberg.spark.SparkCatalog \ --conf spark.sql.catalog.rms.type = glue \ --conf spark.sql.catalog.rms.glue.id = glue RMS catalog ID \ --conf spark.sql.catalog.rms.glue.account-id = AWS account ID \ --conf spark.sql.extensions= org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions

Berikut ini menunjukkan contoh query:

SELECT * FROM rms.rmsdb.table1

Konfigurasi sesi percikan untuk integrasi katalog Iceberg REST AWS Glue

Contoh ini menunjukkan cara mengintegrasikan Iceberg REST dengan: Perayap AWS Glue

spark-sql \ --conf spark.sql.catalog.rms = org.apache.iceberg.spark.SparkCatalog \ --conf spark.sql.catalog.rms.type = rest \ --conf spark.sql.catalog.rms.warehouse = glue RMS catalog ID \ --conf spark.sql.catalog.rms.uri = glue endpoint URI/iceberg \ --conf spark.sql.catalog.rms.rest.sigv4-enabled = true \ --conf spark.sql.catalog.rms.rest.signing-name = glue \ --conf spark.sql.extensions= org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions

Berikut ini menunjukkan contoh query:

SELECT * FROM rms.rmsdb.table1

Konfigurasi ini hanya berfungsi untuk Redshift Managed Storage. FGACuntuk Amazon S3 tidak didukung.