Mengelola izin pada kumpulan data yang menggunakan metastor eksternal - AWS Lake Formation

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mengelola izin pada kumpulan data yang menggunakan metastor eksternal

Dengan federasi AWS Glue Data Catalog metadata (federasi Katalog Data), Anda dapat menghubungkan Katalog Data ke metastor eksternal yang menyimpan metadata untuk data Amazon S3 Anda, dan mengelola izin akses data dengan aman menggunakan. AWS Lake Formation Anda tidak perlu memigrasikan metadata dari metastore eksternal ke Katalog Data.

Katalog Data menyediakan repositori metadata terpusat yang membuat pengelolaan dan penemuan data di seluruh sistem yang berbeda menjadi lebih mudah. Saat organisasi mengelola data di Katalog Data, Anda dapat menggunakannya AWS Lake Formation untuk mengontrol akses ke kumpulan data di Amazon S3.

catatan

Saat ini, kami hanya mendukung federasi metastore Apache Hive (versi 3 ke atas).

Untuk mengatur federasi Katalog Data, kami menyediakan aplikasi AWS Serverless Application Model (AWS SAM) yang disebut GlueDataCatalogFederation- HiveMetastore di AWS Serverless Application Repository.

Implementasi referensi disediakan GitHub sebagai proyek open source di AWS Glue Data Catalog Federation - Hive Metastore.

AWS SAM Aplikasi membuat dan menyebarkan sumber daya berikut yang diperlukan untuk menghubungkan Katalog Data ke metastore Hive:

  • AWS Lambda Fungsi — Menyelenggarakan implementasi layanan federasi yang berkomunikasi antara Katalog Data dan metastore Hive. AWS Glue memanggil fungsi Lambda ini untuk mengambil objek metadata dari metastore Hive.

  • Amazon API Gateway— Titik akhir koneksi untuk metastore Hive Anda yang bertindak sebagai proxy untuk merutekan semua pemanggilan ke fungsi Lambda.

  • Peran IAM — Peran dengan izin yang diperlukan untuk membuat koneksi antara Katalog Data dan metastore Hive.

  • AWS Glue koneksi — Amazon API Gateway Jenis AWS Glue koneksi yang menyimpan Amazon API Gateway titik akhir dan peran IAM untuk memanggilnya.

Saat Anda melakukan kueri tabel, AWS Glue layanan membuat panggilan runtime ke metastore Hive dan mengambil metadata. Fungsi Lambda bertindak sebagai penerjemah antara metastore Hive dan Katalog Data.

Setelah membuat koneksi, untuk menyinkronkan metadata di metastore Hive dengan Katalog Data, Anda perlu membuat database federasi di Katalog Data menggunakan detail koneksi metastore Hive, dan memetakan database ini ke database Hive. Database disebut sebagai database federasi ketika menunjuk ke entitas di luar Katalog Data.

Anda dapat menerapkan izin Lake Formation menggunakan kontrol akses berbasis tag dan metode sumber daya bernama pada database federasi, dan membagikannya di beberapa unit Akun AWS AWS Organizations, dan organisasi (OU). Anda juga dapat berbagi database federasi secara langsung dengan kepala sekolah IAM dari akun lain.

Anda dapat menentukan izin berbutir halus pada tingkat kolom, tingkat baris, dan tingkat sel menggunakan filter data Lake Formation pada tabel Hive eksternal. Anda dapat menggunakan Amazon Athena, Amazon Redshift, atau Amazon EMR untuk menanyakan tabel Hive eksternal yang dikelola Lake Formation.

Untuk informasi selengkapnya tentang berbagi data lintas akun dan pemfilteran data, lihat:

Katalog Data metadata federasi langkah-langkah tingkat tinggi
  1. Anda membuat pengguna IAM dan peran yang memiliki izin yang sesuai untuk menyebarkan AWS SAM aplikasi dan membuat database federasi.

  2. Anda mendaftarkan lokasi data Amazon S3 dengan Lake Formation dengan memilih Enable Data Catalog federation opsi untuk kumpulan data yang menggunakan metastore Hive eksternal.

  3. Anda mengonfigurasi pengaturan AWS SAM aplikasi (nama AWS Glue koneksi, URL ke metastore Hive, dan parameter fungsi Lambda) dan menyebarkan aplikasi. AWS SAM

  4. AWS SAM Aplikasi ini menyebarkan sumber daya yang diperlukan untuk menghubungkan metastore Hive eksternal dengan Katalog Data.

  5. Untuk menerapkan izin Lake Formation pada database dan tabel Hive, Anda membuat database di Katalog Data menggunakan detail koneksi metastore Hive, dan memetakan database ini ke database Hive.

  6. Berikan izin pada database federasi kepada kepala sekolah di akun Anda atau di akun lain.

catatan

Anda dapat menghubungkan Katalog Data ke mestastore Hive eksternal, membuat database federasi, dan menjalankan kueri dan skrip ETL pada database dan tabel Hive tanpa menerapkan izin Lake Formation. Untuk data sumber di Amazon S3 yang tidak terdaftar di Lake Formation, akses ditentukan oleh kebijakan izin IAM untuk Amazon S3 dan tindakan. AWS Glue

Untuk batasan, lihat Metadata sarang menyimpan pertimbangan dan batasan berbagi data.

Alur kerja

Diagram berikut menunjukkan alur kerja untuk menghubungkan AWS Glue Data Catalog ke metastore Hive eksternal.

Workflow diagram showing Hive metastore connection to AWS Glue Data Catalog with numbered steps.
  1. Seorang kepala sekolah mengirimkan kueri menggunakan layanan terintegrasi seperti Athena atau Redshift Spectrum.

  2. Layanan terintegrasi membuat panggilan ke Katalog Data untuk metadata, yang pada gilirannya memanggil titik akhir metastore Hive yang tersedia di belakang Amazon API Gateway, dan menerima respons terhadap permintaan metadata.

  3. Layanan terintegrasi mengirimkan permintaan ke Lake Formation untuk memverifikasi informasi tabel dan kredensi untuk mengakses tabel.

  4. Lake Formation mengotorisasi permintaan dan menjual kredensil sementara ke aplikasi terintegrasi, yang memungkinkan akses data.

  5. Menggunakan kredensi sementara yang diterima dari Lake Formation, layanan terintegrasi membaca data dari Amazon S3, dan membagikan hasilnya kepada kepala sekolah.