Gambaran umum Cara kerjanya Pekerja minimum Aktifkan izin runtime Mengatur izin runtime Mengirimkan pekerjaan Menggunakan Sesi Interaktif FGAC untuk AWS Glue 5.0 Notebook atau sesi interaktif Operasi yang didukung

Penggunaan AWS Glue dengan AWS Lake Formation untuk kontrol akses berbutir halus

Gambaran umum

Dengan AWS Glue versi 5.0 dan yang lebih tinggi, Anda dapat memanfaatkan AWS Lake Formation untuk menerapkan kontrol akses berbutir halus pada tabel Katalog Data yang didukung oleh S3. Kemampuan ini memungkinkan Anda mengonfigurasi kontrol akses tingkat tabel, baris, kolom, dan sel untuk read kueri dalam pekerjaan AWS Glue for Apache Spark Anda. Lihat bagian berikut untuk mempelajari lebih lanjut tentang Lake Formation dan cara menggunakannya dengan AWS Glue.

GlueContextkontrol akses tingkat tabel berbasis dengan AWS Lake Formation izin yang didukung di Glue 4.0 atau sebelumnya tidak didukung di Glue 5.0. Gunakan Spark native fine-grained access control (FGAC) baru di Glue 5.0. Perhatikan detail berikut:

Jika Anda memerlukan kontrol akses berbutir halus (FGAC) untuk kontrol row/column akses/sel, Anda harus bermigrasi dari/Glue di Glue 4.0 dan sebelum kerangka data Spark GlueContext di DynamicFrame Glue 5.0. Sebagai contoh, lihat Migrasi dari GlueContext/Glue DynamicFrame ke Spark DataFrame
Jika Anda membutuhkan kontrol Akses Tabel Penuh (FTA), Anda dapat memanfaatkan FTA dengan DynamicFrames AWS Glue 5.0. Anda juga dapat bermigrasi ke pendekatan Spark asli untuk kemampuan tambahan seperti Resilient Distributed Datasets (RDD), pustaka kustom, dan User Defined Functions (UDF) dengan tabel. AWS Lake Formation Sebagai contoh, lihat Migrasi dari AWS Glue 4.0 ke AWS Glue 5.0.
Jika Anda tidak memerlukan FGAC, maka tidak diperlukan migrasi ke kerangka data Spark dan GlueContext fitur seperti bookmark pekerjaan, predikat push down akan terus berfungsi.
Pekerjaan dengan FGAC membutuhkan minimal 4 pekerja: satu driver pengguna, satu driver sistem, satu pelaksana sistem, dan satu eksekutor pengguna siaga.

Menggunakan AWS Glue dengan AWS Lake Formation menimbulkan biaya tambahan.

Bagaimana AWS Glue bekerja dengan AWS Lake Formation

Menggunakan AWS Glue dengan Lake Formation memungkinkan Anda menerapkan lapisan izin pada setiap pekerjaan Spark untuk menerapkan kontrol izin Lake Formation saat AWS Glue mengeksekusi pekerjaan. AWS Glue menggunakan profil sumber daya Spark untuk membuat dua profil untuk melaksanakan pekerjaan secara efektif. Profil pengguna mengeksekusi kode yang disediakan pengguna, sementara profil sistem memberlakukan kebijakan Lake Formation. Untuk informasi selengkapnya, lihat Apa itu AWS Lake Formation dan Pertimbangan dan batasan.

Berikut ini adalah ikhtisar tingkat tinggi tentang bagaimana AWS Glue mendapatkan akses ke data yang dilindungi oleh kebijakan keamanan Lake Formation.

Diagram menunjukkan bagaimana kontrol akses berbutir halus bekerja dengan Glue AWS API. StartJobRun

Seorang pengguna memanggil StartJobRun API pada pekerjaan AWS Lake Formation-enabled AWS Glue.
AWS Glue mengirimkan pekerjaan ke driver pengguna dan menjalankan pekerjaan di profil pengguna. Driver pengguna menjalankan versi lean Spark yang tidak memiliki kemampuan untuk meluncurkan tugas, meminta pelaksana, mengakses S3 atau Glue Catalog. Ini membangun rencana kerja.
AWS Glue mengatur driver kedua yang disebut driver sistem dan menjalankannya di profil sistem (dengan identitas istimewa). AWS Glue mengatur saluran TLS terenkripsi antara dua driver untuk komunikasi. Driver pengguna menggunakan saluran untuk mengirim rencana pekerjaan ke driver sistem. Driver sistem tidak menjalankan kode yang dikirimkan pengguna. Ini menjalankan Spark penuh dan berkomunikasi dengan S3, dan Katalog Data untuk akses data. Ini meminta pelaksana dan mengkompilasi Job Plan ke dalam urutan tahapan eksekusi.
AWS Glue kemudian menjalankan tahapan pada pelaksana dengan driver pengguna atau driver sistem. Kode pengguna dalam tahap apa pun dijalankan secara eksklusif pada pelaksana profil pengguna.
Tahapan yang membaca data dari tabel Katalog Data yang dilindungi oleh AWS Lake Formation atau yang menerapkan filter keamanan didelegasikan ke pelaksana sistem.

Persyaratan pekerja minimum

Formation-enabled Pekerjaan Lake di AWS Glue membutuhkan minimal 4 pekerja: satu driver pengguna, satu driver sistem, satu pelaksana sistem, dan satu User Executor siaga. Ini naik dari minimal 2 pekerja yang dibutuhkan untuk pekerjaan AWS Glue standar.

Formation-enabled Pekerjaan Lake di AWS Glue menggunakan dua driver Spark — satu untuk profil sistem dan satu lagi untuk profil pengguna. Demikian pula, pelaksana juga dibagi menjadi dua profil:

Pelaksana sistem: menangani tugas di mana filter data Lake Formation diterapkan.
User executors: diminta oleh driver sistem sesuai kebutuhan.

Karena pekerjaan Spark bersifat malas, AWS Glue mencadangkan 10% dari total pekerja (minimal 1), setelah dikurangi dua driver, untuk pelaksana pengguna.

Semua Formation-enabled pekerjaan Lake mengaktifkan auto-scaling, artinya pelaksana pengguna hanya akan mulai saat diperlukan.

Untuk konfigurasi contoh, lihat Pertimbangan dan batasan.

Izin IAM peran runtime pekerjaan

Izin Lake Formation mengontrol akses ke sumber daya Katalog Data AWS Glue, lokasi Amazon S3, dan data dasar di lokasi tersebut. Izin IAM mengontrol akses ke API dan sumber daya Lake Formation dan AWS Glue. Meskipun Anda mungkin memiliki izin Lake Formation untuk mengakses tabel di Katalog Data (SELECT), operasi Anda gagal jika Anda tidak memiliki izin IAM pada operasi glue:Get* API.

Berikut ini adalah contoh kebijakan tentang cara memberikan izin IAM untuk mengakses skrip di S3, mengunggah log ke S3, izin AWS Glue API, dan izin untuk mengakses Lake Formation.

Menyiapkan izin Lake Formation untuk peran runtime pekerjaan

Pertama, daftarkan lokasi meja Hive Anda dengan Lake Formation. Kemudian buat izin untuk peran runtime pekerjaan Anda di tabel yang Anda inginkan. Untuk detail lebih lanjut tentang Lake Formation, lihat Apa itu AWS Lake Formation? di Panduan AWS Lake Formation Pengembang.

Setelah Anda mengatur izin Lake Formation, Anda dapat mengirimkan pekerjaan Spark di Glue AWS .

Mengirimkan pekerjaan

Setelah Anda selesai menyiapkan hibah Lake Formation, Anda dapat mengirimkan pekerjaan Spark di Glue AWS . Untuk menjalankan pekerjaan Iceberg, Anda harus menyediakan konfigurasi Spark berikut. Untuk mengkonfigurasi melalui parameter pekerjaan Glue, letakkan parameter berikut:

Kunci:
```
--conf
```

Nilai:


spark.sql.catalog.spark_catalog=org.apache.iceberg.spark.SparkSessionCatalog 
					  --conf spark.sql.catalog.spark_catalog.warehouse=<S3_DATA_LOCATION> 
					  --conf spark.sql.catalog.spark_catalog.glue.account-id=<ACCOUNT_ID> 
					  --conf spark.sql.catalog.spark_catalog.client.region=<REGION> 
					  --conf spark.sql.catalog.spark_catalog.glue.endpoint=https://glue.<REGION>.amazonaws.com

Menggunakan Sesi Interaktif

Setelah Anda selesai menyiapkan AWS Lake Formation hibah, Anda dapat menggunakan Sesi Interaktif di AWS Glue. Anda harus memberikan konfigurasi Spark berikut melalui %%configure sihir sebelum mengeksekusi kode.


%%configure
{
    "--enable-lakeformation-fine-grained-access": "true",
    "--conf": "spark.sql.catalog.spark_catalog=org.apache.iceberg.spark.SparkSessionCatalog --conf spark.sql.catalog.spark_catalog.warehouse=<S3_DATA_LOCATION> --conf spark.sql.catalog.spark_catalog.catalog-impl=org.apache.iceberg.aws.glue.GlueCatalog --conf spark.sql.catalog.spark_catalog.io-impl=org.apache.iceberg.aws.s3.S3FileIO --conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions --conf spark.sql.catalog.spark_catalog.client.region=<REGION> --conf spark.sql.catalog.spark_catalog.glue.account-id=<ACCOUNT_ID> --conf spark.sql.catalog.spark_catalog.glue.endpoint=https://glue.<REGION>.amazonaws.com"
}

FGAC untuk AWS Glue 5.0 Notebook atau sesi interaktif

Untuk mengaktifkan Fine-Grained Access Control (FGAC) di AWS Glue, Anda harus menentukan Spark confs yang diperlukan untuk Lake Formation sebagai bagian dari sihir %%configure sebelum Anda membuat sel pertama.

Menentukannya nanti menggunakan panggilan SparkSession.builder().conf("").get() atau tidak SparkSession.builder().conf("").create() akan cukup. Ini adalah perubahan dari perilaku AWS Glue 4.0.

Open-table dukungan format

AWS Glue versi 5.0 atau yang lebih baru mencakup dukungan untuk kontrol akses berbutir halus berdasarkan Lake Formation. AWS Glue mendukung jenis tabel Hive dan Iceberg. Tabel berikut menjelaskan semua operasi yang didukung.

Operasi	Hive	Gunung es
Perintah DDL	Hanya dengan izin peran IAM	Hanya dengan izin peran IAM
Kueri tambahan	Tidak berlaku	Sepenuhnya didukung
Pertanyaan perjalanan waktu	Tidak berlaku untuk format tabel ini	Sepenuhnya didukung
Tabel metadata	Tidak berlaku untuk format tabel ini	Didukung, tetapi tabel tertentu disembunyikan. Lihat pertimbangan dan batasan untuk informasi lebih lanjut.
`DML INSERT`	Hanya dengan izin IAM	Hanya dengan izin IAM
PEMUTAKHIRAN DML	Tidak berlaku untuk format tabel ini	Hanya dengan izin IAM
`DML DELETE`	Tidak berlaku untuk format tabel ini	Hanya dengan izin IAM
Operasi baca	Sepenuhnya didukung	Sepenuhnya didukung
Prosedur tersimpan	Tidak berlaku	Didukung dengan pengecualian `register_table` dan`migrate`. Lihat pertimbangan dan batasan untuk informasi lebih lanjut.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Menggunakan AWS Glue dengan AWS Lake Formation untuk Akses Tabel Penuh

Migrasi dari GlueContext/Glue DynamicFrame ke Spark DataFrame