Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Menggunakan kerangka Iceberg di Glue AWS
AWSGlue 3.0 dan yang lebih baru mendukung kerangka Apache Iceberg untuk data lake. Iceberg menyediakan format tabel kinerja tinggi yang bekerja seperti tabel SQL. Topik ini mencakup fitur yang tersedia untuk menggunakan data Anda di AWS Glue saat Anda mengangkut atau menyimpan data Anda dalam tabel Gunung Es. Untuk mempelajari lebih lanjut tentang Iceberg, lihat dokumentasi resmi Apache
Anda dapat menggunakan AWS Glue untuk melakukan operasi baca dan tulis pada tabel Iceberg di Amazon S3, atau bekerja dengan tabel Iceberg menggunakan AWS Glue Data Catalog. Operasi tambahan termasuk insert, update, dan semua Spark Queries
catatan
ALTER TABLE … RENAME TO
tidak tersedia untuk Apache Iceberg 0.13.1 untuk Glue 3.0. AWS
Tabel berikut mencantumkan versi Iceberg yang disertakan dalam setiap versi AWS Glue.
AWSVersi Glue | Versi Iceberg yang Didukung |
---|---|
4.0 | 1.0.0 |
3.0 | 0.13.1 |
Untuk mempelajari lebih lanjut tentang framework data lake yang didukung AWS Glue, lihatMenggunakan kerangka kerja data lake dengan pekerjaan AWS Glue ETL.
Mengaktifkan kerangka Iceberg
Untuk mengaktifkan Iceberg for AWS Glue, selesaikan tugas berikut:
-
Tentukan
iceberg
sebagai nilai untuk parameter--datalake-formats
pekerjaan. Untuk informasi selengkapnya, lihat Menggunakan parameter pekerjaan dalam pekerjaan AWS Glue. -
Buat kunci bernama
--conf
untuk pekerjaan AWS Glue Anda, dan atur ke nilai berikut. Atau, Anda dapat mengatur konfigurasi berikut menggunakanSparkConf
skrip Anda. Pengaturan ini membantu Apache Spark menangani tabel Iceberg dengan benar.spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions --conf spark.sql.catalog.glue_catalog=org.apache.iceberg.spark.SparkCatalog --conf spark.sql.catalog.glue_catalog.warehouse=s3://
<your-warehouse-dir
>/ --conf spark.sql.catalog.glue_catalog.catalog-impl=org.apache.iceberg.aws.glue.GlueCatalog --conf spark.sql.catalog.glue_catalog.io-impl=org.apache.iceberg.aws.s3.S3FileIOJika Anda membaca atau menulis ke tabel Gunung Es yang terdaftar di Lake Formation, tambahkan konfigurasi berikut untuk mengaktifkan dukungan Lake Formation. Perhatikan bahwa hanya AWS Glue 4.0 yang mendukung tabel Gunung Es yang terdaftar di Lake Formation:
--conf spark.sql.catalog.glue_catalog.glue.lakeformation-enabled=true --conf spark.sql.catalog.glue_catalog.glue.id=<table-catalog-id>
Jika Anda menggunakan AWS Glue 3.0 dengan Iceberg 0.13.1, Anda harus mengatur konfigurasi tambahan berikut untuk menggunakan pengelola kunci Amazon DynamoDB untuk memastikan transaksi atom. AWS Glue 4.0 menggunakan penguncian optimis secara default. Untuk informasi selengkapnya, lihat AWSIntegrasi Gunung Es di dokumentasi Apache Iceberg
resmi. --conf spark.sql.catalog.glue_catalog.lock-impl=org.apache.iceberg.aws.glue.DynamoLockManager --conf spark.sql.catalog.glue_catalog.lock.table=
<your-dynamodb-table-name>
Menggunakan versi Iceberg yang berbeda
Untuk menggunakan versi Iceberg yang tidak didukung AWS Glue, tentukan file Iceberg JAR Anda sendiri menggunakan parameter pekerjaan. --extra-jars
Jangan sertakan iceberg
sebagai nilai untuk --datalake-formats
parameter.
Mengaktifkan enkripsi untuk tabel Iceberg
catatan
Tabel gunung es memiliki mekanisme sendiri untuk mengaktifkan enkripsi sisi server. Anda harus mengaktifkan konfigurasi ini selain konfigurasi keamanan AWS Glue.
Untuk mengaktifkan enkripsi sisi server pada tabel Iceberg, tinjau panduan dari dokumentasi Iceberg.
Contoh: Tulis tabel Gunung Es ke Amazon S3 dan daftarkan ke Katalog Data Glue AWS
Contoh skrip ini menunjukkan cara menulis tabel Iceberg ke Amazon S3. Contoh menggunakan Iceberg AWS Integrations
Atau, Anda dapat menulis tabel Iceberg ke Amazon S3 dan Katalog Data menggunakan metode Spark.
Prasyarat: Anda perlu menyediakan katalog untuk perpustakaan Iceberg untuk digunakan. Saat menggunakan AWS Glue Data Catalog, AWS Glue membuatnya mudah. Katalog Data AWS Glue sudah dikonfigurasi sebelumnya untuk digunakan oleh pustaka Spark sebagai. glue_catalog
Tabel Katalog Data diidentifikasi oleh
Untuk informasi selengkapnya tentang Katalog Data AWS Glue, lihatPenemuan dan katalogisasi data di AWS Glue.DatabaseName dan TableName
.
Jika Anda tidak menggunakan Katalog Data AWS Glue, Anda harus menyediakan katalog melalui API Spark. Untuk informasi selengkapnya, lihat Konfigurasi Percikan
Contoh ini menulis tabel Iceberg ke Amazon S3 dan Katalog Data menggunakan Spark.
Contoh: Membaca tabel Gunung Es dari Amazon S3 menggunakan Katalog Data Glue AWS
Contoh ini membaca tabel Iceberg yang Anda buat. Contoh: Tulis tabel Gunung Es ke Amazon S3 dan daftarkan ke Katalog Data Glue AWS
Contoh: Masukkan DataFrame
ke dalam tabel Iceberg di Amazon S3 menggunakan Glue Data Catalog AWS
Contoh ini menyisipkan data ke dalam tabel Iceberg yang Anda buat. Contoh: Tulis tabel Gunung Es ke Amazon S3 dan daftarkan ke Katalog Data Glue AWS
catatan
Contoh ini mengharuskan Anda untuk mengatur parameter --enable-glue-datacatalog
pekerjaan untuk menggunakan Katalog Data AWS Glue sebagai metastore Apache Spark Hive. Untuk mempelajari selengkapnya, lihat Menggunakan parameter pekerjaan dalam pekerjaan AWS Glue.
Contoh: Baca tabel Iceberg dari Amazon S3 menggunakan Spark
Prasyarat: Anda perlu menyediakan katalog untuk perpustakaan Iceberg untuk digunakan. Saat menggunakan AWS Glue Data Catalog, AWS Glue membuatnya mudah. Katalog Data AWS Glue sudah dikonfigurasi sebelumnya untuk digunakan oleh pustaka Spark sebagai. glue_catalog
Tabel Katalog Data diidentifikasi oleh
Untuk informasi selengkapnya tentang Katalog Data AWS Glue, lihatPenemuan dan katalogisasi data di AWS Glue.DatabaseName dan TableName
.
Jika Anda tidak menggunakan Katalog Data AWS Glue, Anda harus menyediakan katalog melalui API Spark. Untuk informasi selengkapnya, lihat Konfigurasi Percikan
Contoh ini membaca tabel Iceberg di Amazon S3 dari Katalog Data menggunakan Spark.
Contoh: Membaca dan menulis tabel Gunung Es dengan kontrol izin Lake Formation
Contoh ini membaca dan menulis tabel Gunung Es dengan kontrol izin Lake Formation.
Buat tabel Gunung Es dan daftarkan di Lake Formation:
Untuk mengaktifkan kontrol izin Lake Formation, Anda harus terlebih dahulu mendaftarkan tabel jalur Amazon S3 di Lake Formation. Untuk informasi selengkapnya, lihat Mendaftarkan lokasi Amazon S3. Anda dapat mendaftarkannya baik dari konsol Lake Formation atau dengan menggunakan AWS CLI:
aws lakeformation register-resource --resource-arn arn:aws:s3:::<s3-bucket>/<s3-folder> --use-service-linked-role --region <REGION>
Setelah Anda mendaftarkan lokasi Amazon S3, tabel AWS Glue apa pun yang menunjuk ke lokasi (atau lokasi turunan mana pun) akan mengembalikan nilai
IsRegisteredWithLakeFormation
parameter sebagai true dalam panggilan.GetTable
Buat tabel Iceberg yang menunjuk ke jalur terdaftar melalui Spark SQL:
catatan
Berikut ini adalah contoh Python.
dataFrame.createOrReplaceTempView("tmp_<your_table_name>") query = f""" CREATE TABLE glue_catalog.<your_database_name>.<your_table_name> USING iceberg AS SELECT * FROM tmp_<your_table_name> """ spark.sql(query)
Anda juga dapat membuat tabel secara manual melalui AWS Glue
CreateTable
API. Untuk informasi selengkapnya, lihat Membuat tabel Apache Iceberg.
Berikan izin Formasi Danau untuk peran IAM pekerjaan. Anda dapat memberikan izin dari konsol Lake Formation, atau menggunakan AWS CLI. Untuk informasi selengkapnya, lihat: https://docs.aws.amazon.com/lake-formation/latest/dg/ granting-table-permissions .html
Baca tabel Gunung Es yang terdaftar di Lake Formation. Kode ini sama dengan membaca tabel Iceberg yang tidak terdaftar. Perhatikan bahwa peran IAM AWS Glue job Anda harus memiliki izin SELECT agar pembacaan berhasil.
# Example: Read an Iceberg table from the AWS Glue Data Catalog from awsglue.context import GlueContextfrom pyspark.context import SparkContext sc = SparkContext() glueContext = GlueContext(sc) df = glueContext.create_data_frame.from_catalog( database="<your_database_name>", table_name="<your_table_name>", additional_options=additional_options )
Tulis ke meja Gunung Es yang terdaftar di Lake Formation. Kode ini sama dengan menulis ke tabel Iceberg yang tidak terdaftar. Perhatikan bahwa peran IAM AWS Glue job Anda harus memiliki izin SUPER agar penulisan berhasil.
glueContext.write_data_frame.from_catalog( frame=dataFrame, database="<your_database_name>", table_name="<your_table_name>", additional_options=additional_options )