Terminologi Lake Formation - AWS Lake Formation

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Terminologi Lake Formation

Berikut ini adalah beberapa istilah penting yang akan Anda temui dalam panduan ini.

Danau data

Data lake adalah data persisten Anda yang disimpan di Amazon S3 dan dikelola oleh Lake Formation menggunakan Katalog Data. Danau data biasanya menyimpan hal-hal berikut:

  • Data terstruktur dan tidak terstruktur

  • Data mentah dan data yang diubah

Agar jalur Amazon S3 berada di dalam danau data, itu harus terdaftar di Lake Formation.

Akses data

Lake Formation menyediakan akses data yang aman dan terperinci melalui model izin hibah/pencabutan baru yang menambah kebijakan (). AWS Identity and Access Management IAM

Analis dan ilmuwan data dapat menggunakan portofolio lengkap layanan AWS analitik dan pembelajaran mesin, seperti Amazon Athena, untuk mengakses data. Kebijakan keamanan Lake Formation yang dikonfigurasi membantu memastikan bahwa pengguna hanya dapat mengakses data yang diizinkan untuk diakses.

Mode akses hibrid

Mode akses Hyrbid memungkinkan Anda mengamankan dan mengakses data yang dikatalogkan menggunakan izin Lake Formation dan serta izin Amazon IAM S3. Mode akses hibrid memungkinkan administrator data untuk memasukkan izin Lake Formation secara selektif dan bertahap, dengan fokus pada satu kasus penggunaan data lake pada satu waktu.

Cetak biru

Blueprint adalah template manajemen data yang memungkinkan Anda untuk dengan mudah menelan data ke dalam danau data. Lake Formation menyediakan beberapa cetak biru, masing-masing untuk jenis sumber yang telah ditentukan, seperti database relasional atau log. AWS CloudTrail Dari cetak biru, Anda dapat membuat alur kerja. Alur kerja terdiri dari AWS Glue crawler, pekerjaan, dan pemicu yang dihasilkan untuk mengatur pemuatan dan pembaruan data. Cetak biru mengambil sumber data, target data, dan jadwal sebagai input untuk mengonfigurasi alur kerja.

Alur kerja

Alur kerja adalah wadah untuk satu set yang terkait AWS Glue pekerjaan, crawler, dan pemicu. Anda membuat alur kerja di Lake Formation, dan dijalankan di AWS Glue layanan. Lake Formation dapat melacak status alur kerja sebagai entitas tunggal.

Saat Anda menentukan alur kerja, Anda memilih cetak biru yang menjadi dasarnya. Anda kemudian dapat menjalankan alur kerja sesuai permintaan atau sesuai jadwal.

Alur kerja yang Anda buat di Lake Formation terlihat di AWS Glue konsol sebagai grafik asiklik terarah (). DAG Dengan menggunakanDAG, Anda dapat melacak kemajuan alur kerja dan melakukan pemecahan masalah.

Katalog Data

Katalog Data adalah penyimpanan metadata persisten Anda. Ini adalah layanan terkelola yang memungkinkan Anda menyimpan, membuat anotasi, dan berbagi metadata di AWS Cloud dengan cara yang sama seperti yang Anda lakukan di metastore Apache Hive. Ini menyediakan repositori seragam di mana sistem yang berbeda dapat menyimpan dan menemukan metadata untuk melacak data dalam silo data, dan kemudian menggunakan metadata itu untuk menanyakan dan mengubah data. Lake Formation menggunakan AWS Glue Katalog Data untuk menyimpan metadata tentang data lake, sumber data, transformasi, dan target.

Metadata tentang sumber data dan target adalah dalam bentuk database dan tabel. Tabel menyimpan informasi skema, informasi lokasi, dan banyak lagi. Database adalah kumpulan tabel. Lake Formation menyediakan hierarki izin untuk mengontrol akses ke database dan tabel di Katalog Data.

Setiap AWS akun memiliki satu Katalog Data per AWS Wilayah.

Data yang mendasari

Data yang mendasari mengacu pada data sumber atau data dalam danau data yang ditunjukkan oleh tabel Katalog Data.

Utama

Principal adalah AWS Identity and Access Management (IAM) pengguna atau peran atau pengguna Active Directory.

Administrator danau data

Administrator data lake adalah kepala sekolah yang dapat memberikan izin kepada kepala sekolah apa pun (termasuk diri sendiri) pada sumber daya Katalog Data atau lokasi data apa pun. Tentukan administrator data lake sebagai pengguna pertama Katalog Data. Pengguna ini kemudian dapat memberikan izin sumber daya yang lebih terperinci kepada prinsipal lain.

catatan

IAMpengguna administratif—pengguna dengan kebijakan AdministratorAccess AWS terkelola—bukan administrator data lake secara otomatis. Misalnya, mereka tidak dapat memberikan izin Lake Formation pada objek katalog kecuali mereka telah diberikan izin untuk melakukannya. Namun, mereka dapat menggunakan konsol Lake Formation atau API untuk menunjuk diri mereka sebagai administrator danau data.

Untuk informasi tentang kemampuan administrator danau data, lihatIzin Lake Formation Implisit. Untuk informasi tentang menunjuk pengguna sebagai administrator data lake, lihatBuat administrator danau data.