Membuat danau data dari AWS CloudTrail sumber - AWS Lake Formation

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Membuat danau data dari AWS CloudTrail sumber

Tutorial ini memandu Anda melalui tindakan yang harus diambil pada konsol Lake Formation untuk membuat dan memuat data lake pertama Anda dari AWS CloudTrail sumber.

Langkah-langkah tingkat tinggi untuk membuat danau data
  1. Daftarkan jalur Amazon Simple Storage Service (Amazon S3) sebagai data lake.

  2. Berikan izin Lake Formation untuk menulis ke Katalog Data dan ke lokasi Amazon S3 di data lake.

  3. Buat database untuk mengatur tabel metadata dalam Katalog Data.

  4. Gunakan cetak biru untuk membuat alur kerja. Jalankan alur kerja untuk menyerap data dari sumber data.

  5. Siapkan izin Lake Formation Anda untuk memungkinkan orang lain mengelola data di Katalog Data dan data lake.

  6. Siapkan Amazon Athena untuk menanyakan data yang Anda impor ke danau data Amazon S3 Anda.

  7. Untuk beberapa jenis penyimpanan data, siapkan Amazon Redshift Spectrum untuk menanyakan data yang Anda impor ke data lake Amazon S3 Anda.

Audiens yang dituju

Tabel berikut mencantumkan peran yang digunakan dalam tutorial ini untuk membuat danau data.

Audiens yang dituju
Peran Deskripsi
IAMAdministrator Memiliki kebijakan AWS terkelola:AdministratorAccess. Dapat membuat IAM peran dan bucket Amazon S3.
Administrator danau data Pengguna yang dapat mengakses katalog data, membuat database, dan memberikan izin Lake Formation kepada pengguna lain. Memiliki IAM izin lebih sedikit daripada IAM administrator, tetapi cukup untuk mengelola data lake.
Analis data Pengguna yang dapat menjalankan kueri terhadap data lake. Hanya memiliki izin yang cukup untuk menjalankan kueri.
Peran alur kerja Berperan dengan IAM kebijakan yang diperlukan untuk menjalankan alur kerja. Untuk informasi selengkapnya, lihat (Opsional) Buat peran IAM untuk alur kerja.

Prasyarat

Sebelum Anda memulai:

  • Pastikan bahwa Anda telah menyelesaikan tugas diMengatur AWS Lake Formation.

  • Ketahui lokasi CloudTrail log Anda.

  • Athena mengharuskan persona analis data untuk membuat bucket Amazon S3 untuk menyimpan hasil kueri sebelum menggunakan Athena.

Keakraban dengan AWS Identity and Access Management (IAM) diasumsikan. Untuk selengkapnyaIAM, lihat Panduan IAM Pengguna.

Langkah 1: Buat pengguna analis data

Pengguna ini memiliki set izin minimum untuk menanyakan data lake.

  1. Buka konsol IAM di https://console.aws.amazon.com/iam. Masuk sebagai pengguna administrator yang Anda buat Buat pengguna dengan akses administratif atau sebagai pengguna dengan kebijakan AdministratorAccess AWS terkelola.

  2. Buat pengguna bernama datalake_user dengan pengaturan berikut:

    • Aktifkan AWS Management Console akses.

    • Tetapkan kata sandi dan tidak memerlukan pengaturan ulang kata sandi.

    • Lampirkan kebijakan AmazonAthenaFullAccess AWS terkelola.

    • Lampirkan kebijakan inline berikut. Sebutkan kebijakan DatalakeUserBasic.

      { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "lakeformation:GetDataAccess", "glue:GetTable", "glue:GetTables", "glue:SearchTables", "glue:GetDatabase", "glue:GetDatabases", "glue:GetPartitions", "lakeformation:GetResourceLFTags", "lakeformation:ListLFTags", "lakeformation:GetLFTag", "lakeformation:SearchTablesByLFTags", "lakeformation:SearchDatabasesByLFTags" ], "Resource": "*" } ] }

Langkah 2: Tambahkan izin untuk membaca AWS CloudTrail log ke peran alur kerja

  1. Lampirkan kebijakan inline berikut ke peranLakeFormationWorkflowRole. Kebijakan memberikan izin untuk membaca AWS CloudTrail log Anda. Sebutkan kebijakan DatalakeGetCloudTrail.

    Untuk membuat LakeFormationWorkflowRole peran, lihat(Opsional) Buat peran IAM untuk alur kerja.

    penting

    Ganti <your-s3-cloudtrail-bucket> dengan lokasi Amazon S3 dari data Anda CloudTrail .

    { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": "s3:GetObject", "Resource": ["arn:aws:s3:::<your-s3-cloudtrail-bucket>/*"] } ] }
  2. Verifikasi bahwa ada tiga kebijakan yang melekat pada peran tersebut.

Langkah 3: Buat bucket Amazon S3 untuk data lake

Buat bucket Amazon S3 yang akan menjadi lokasi root danau data Anda.

  1. Buka konsol Amazon S3 di https://console.aws.amazon.com/s3/dan masuk sebagai pengguna administrator yang Anda buat. Buat pengguna dengan akses administratif

  2. Pilih Buat ember, dan buka wizard untuk membuat ember bernama<yourName>-datalake-cloudtrail, di mana <yourName> adalah nama awal dan belakang pertama Anda. Sebagai contoh: jdoe-datalake-cloudtrail.

    Untuk petunjuk mendetail tentang cara membuat bucket Amazon S3, lihat Membuat bucket.

Langkah 4: Daftarkan jalur Amazon S3

Daftarkan jalur Amazon S3 sebagai lokasi root danau data Anda.

  1. Buka konsol Lake Formation di https://console.aws.amazon.com/lakeformation/. Masuk sebagai administrator danau data.

  2. Di panel navigasi, di bawah Daftar dan konsumsi, pilih Lokasi danau data.

  3. Pilih Daftar lokasi dan kemudian Jelajahi.

  4. Pilih <yourName>-datalake-cloudtrail bucket yang Anda buat sebelumnya, terima IAM peran defaultAWSServiceRoleForLakeFormationDataAccess, lalu pilih Daftar lokasi.

    Untuk informasi selengkapnya tentang mendaftarkan lokasi, lihatMenambahkan lokasi Amazon S3 ke danau data Anda.

Langkah 5: Berikan izin lokasi data

Prinsipal harus memiliki izin lokasi data pada lokasi data lake untuk membuat tabel Katalog Data atau database yang mengarah ke lokasi tersebut. Anda harus memberikan izin lokasi data ke IAM peran alur kerja sehingga alur kerja dapat menulis ke tujuan konsumsi data.

  1. Di panel navigasi, di bawah Izin, pilih Lokasi data.

  2. Pilih Hibah, dan di kotak dialog Hibah izin, buat pilihan ini:

    1. Untuk IAMpengguna dan peran, pilihLakeFormationWorkflowRole.

    2. Untuk lokasi Penyimpanan, pilih <yourName>-datalake-cloudtrail bucket Anda.

  3. PilihIzin.

Untuk informasi selengkapnya tentang izin lokasi data, lihatUnderlying data access control.

Langkah 6: Buat database di Katalog Data

Tabel metadata dalam Katalog Data Lake Formation disimpan dalam database.

  1. Di panel navigasi, di bawah Katalog data, pilih Database.

  2. Pilih Buat database, dan di bawah rincian Database, masukkan namalakeformation_cloudtrail.

  3. Biarkan bidang lainnya kosong, dan pilih Buat database.

Langkah 7: Berikan izin data

Anda harus memberikan izin untuk membuat tabel metadata di Katalog Data. Karena alur kerja akan berjalan dengan peranLakeFormationWorkflowRole, Anda harus memberikan izin ini ke peran tersebut.

  1. Di konsol Lake Formation, di panel navigasi, di bawah Katalog data, pilih Database.

  2. Pilih lakeformation_cloudtrail database, lalu, dari daftar drop-down Tindakan, pilih Hibah di bawah judul Izin.

  3. Di kotak dialog Berikan izin data, buat pilihan ini:

    1. Di bawah Prinsipal, untuk IAMpengguna dan peran, pilih. LakeFormationWorkflowRole

    2. Di bawah LF-tag atau sumber katalog, pilih Sumber daya katalog data bernama.

    3. Untuk Database, Anda harus melihat bahwa lakeformation_cloudtrail database sudah ditambahkan.

    4. Di bawah Izin database, pilih Buat tabel, Ubah, dan Jatuhkan, dan hapus Super jika dipilih.

    Kotak dialog izin data Grant Anda sekarang akan terlihat seperti tangkapan layar ini.

    Kotak dialog Hibah izin data menunjukkan pilihan yang dijelaskan dalam teks. Kotak dialog dibagi menjadi 3 bagian, disusun secara vertikal: Prinsipal, LF-tag atau sumber daya katalog, dan izin Database.
  4. PilihIzin.

Untuk informasi selengkapnya tentang pemberian izin Lake Formation, lihat. Mengelola izin Lake Formation

Langkah 8: Gunakan cetak biru untuk membuat alur kerja

Untuk membaca CloudTrail log, memahami strukturnya, membuat tabel yang sesuai di Katalog Data, kita perlu menyiapkan alur kerja yang terdiri dari AWS Glue crawler, pekerjaan, pemicu, dan alur kerja. Cetak biru Lake Formation menyederhanakan proses ini.

Alur kerja menghasilkan pekerjaan, crawler, dan pemicu yang menemukan dan menelan data ke dalam data lake Anda. Anda membuat alur kerja berdasarkan salah satu cetak biru Lake Formation yang telah ditentukan sebelumnya.

  1. Di konsol Lake Formation, di panel navigasi, pilih Blueprints, lalu pilih Use blueprint.

  2. Pada halaman Gunakan cetak biru, di bawah Jenis cetak biru, pilih. AWS CloudTrail

  3. Di bawah Impor sumber, pilih CloudTrail sumber dan tanggal mulai.

  4. Di bawah target Impor, tentukan parameter ini:

    Basis data target lakeformation_cloudtrail
    Target lokasi penyimpanan s3://<yourName>-datalake-cloudtrail
    Format data Parquet
  5. Untuk frekuensi impor, pilih Jalankan sesuai permintaan.

  6. Di bawah opsi Impor, tentukan parameter ini:

    Nama alur kerja lakeformationcloudtrailtest
    IAMperan LakeFormationWorkflowRole
    Awalan tabel cloudtrailtest
    catatan

    Harus huruf kecil.

  7. Pilih Buat, dan tunggu konsol melaporkan bahwa alur kerja berhasil dibuat.

    Tip

    Apakah Anda mendapatkan pesan kesalahan berikut?

    User: arn:aws:iam::<account-id>:user/<datalake_administrator_user> is not authorized to perform: iam:PassRole on resource:arn:aws:iam::<account-id>:role/LakeFormationWorkflowRole...

    Jika demikian, periksa apakah Anda mengganti <account-id> dalam kebijakan inline untuk pengguna administrator danau data dengan nomor AWS akun yang valid.

Langkah 9: Jalankan alur kerja

Karena Anda menentukan bahwa alur kerjanya run-on-demand, Anda harus memulai alur kerja secara manual.

  • Pada halaman Blueprints, pilih alur kerja, dan pada menu Tindakan lakeformationcloudtrailtest, pilih Mulai.

    Saat alur kerja berjalan, Anda dapat melihat kemajuannya di kolom Status Last run. Pilih tombol refresh sesekali.

    Statusnya berubah dari RUNNING, ke Menemukan, Mengimpor, ke. COMPLETED

    Saat alur kerja selesai:

    • Katalog Data akan memiliki tabel metadata baru.

    • CloudTrail Log Anda akan tertelan ke dalam danau data.

    Jika alur kerja gagal, lakukan hal berikut:

    1. Pilih alur kerja, dan pada menu Tindakan, pilih Lihat grafik.

      Alur kerja terbuka di AWS Glue konsol.

    2. Pastikan bahwa alur kerja sudah dipilih, dan pilih tab Riwayat.

    3. Di bawah Riwayat, pilih proses terbaru dan pilih Lihat detail jalankan.

    4. Pilih job atau crawler yang gagal dalam grafik dinamis (runtime), dan tinjau pesan galatnya. Node yang gagal berwarna merah atau kuning.

Langkah 10: Hibah SELECT di atas meja

Anda harus memberikan SELECT izin pada tabel Katalog Data baru sehingga analis data dapat melakukan kueri data yang ditunjukkan tabel.

catatan

Alur kerja secara otomatis memberikan SELECT izin pada tabel yang dibuatnya kepada pengguna yang menjalankannya. Karena administrator data lake menjalankan alur kerja ini, Anda harus memberikan SELECT kepada analis data.

  1. Di konsol Lake Formation, di panel navigasi, di bawah Katalog data, pilih Database.

  2. Pilih lakeformation_cloudtrail database, lalu, dari daftar drop-down Tindakan, pilih Hibah di bawah judul Izin.

  3. Di kotak dialog Berikan izin data, buat pilihan ini:

    1. Di bawah Prinsipal, untuk IAMpengguna dan peran, pilih. datalake_user

    2. Di bawah LF-tag atau sumber katalog, pilih Sumber daya katalog data bernama.

    3. Untuk Database, lakeformation_cloudtrail database harus sudah dipilih.

    4. Untuk Tabel, pilihcloudtrailtest-cloudtrail.

    5. Di bawah Izin tabel dan kolom, pilih Pilih.

  4. PilihIzin.

Langkah selanjutnya dilakukan sebagai analis data.

Langkah 11: Kueri data lake Menggunakan Amazon Athena

Gunakan Amazon Athena konsol untuk menanyakan CloudTrail data di danau data Anda.

  1. Buka konsol Athena di https://console.aws.amazon.com/athena/dan masuk sebagai analis data, pengguna. datalake_user

  2. Jika perlu, pilih Mulai untuk melanjutkan ke editor kueri Athena.

  3. Untuk Sumber Data, pilih AwsDataCatalog.

  4. Untuk Database, pilihlakeformation_cloudtrail.

    Daftar Tabel terisi.

  5. Pada menu overflow (3 titik disusun secara horizontal) di samping tabel, pilih tabel Pratinjau cloudtrailtest-cloudtrail, lalu pilih Jalankan.

    Kueri berjalan dan menampilkan 10 baris data.

    Jika Anda belum pernah menggunakan Athena sebelumnya, Anda harus terlebih dahulu mengonfigurasi lokasi Amazon S3 di konsol Athena untuk menyimpan hasil kueri. datalake_userHarus memiliki izin yang diperlukan untuk mengakses bucket Amazon S3 yang Anda pilih.

catatan

Sekarang setelah Anda menyelesaikan tutorial, berikan izin data dan izin lokasi data ke kepala sekolah di organisasi Anda.