Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Membuat danau data dari AWS CloudTrail sumber
Tutorial ini memandu Anda melalui tindakan yang harus diambil pada konsol Lake Formation untuk membuat dan memuat data lake pertama Anda dari AWS CloudTrail sumber.
Langkah-langkah tingkat tinggi untuk membuat danau data
Daftarkan jalur Amazon Simple Storage Service (Amazon S3) sebagai data lake.
Berikan izin Lake Formation untuk menulis ke Katalog Data dan ke lokasi Amazon S3 di data lake.
Buat database untuk mengatur tabel metadata dalam Katalog Data.
Gunakan cetak biru untuk membuat alur kerja. Jalankan alur kerja untuk menyerap data dari sumber data.
-
Siapkan izin Lake Formation Anda untuk memungkinkan orang lain mengelola data di Katalog Data dan data lake.
Siapkan Amazon Athena untuk menanyakan data yang Anda impor ke danau data Amazon S3 Anda.
Untuk beberapa jenis penyimpanan data, siapkan Amazon Redshift Spectrum untuk menanyakan data yang Anda impor ke data lake Amazon S3 Anda.
Topik
- Audiens yang dituju
- Prasyarat
- Langkah 1: Buat pengguna analis data
- Langkah 2: Tambahkan izin untuk membaca AWS CloudTrail log ke peran alur kerja
- Langkah 3: Buat bucket Amazon S3 untuk data lake
- Langkah 4: Daftarkan jalur Amazon S3
- Langkah 5: Berikan izin lokasi data
- Langkah 6: Buat database di Katalog Data
- Langkah 7: Berikan izin data
- Langkah 8: Gunakan cetak biru untuk membuat alur kerja
- Langkah 9: Jalankan alur kerja
- Langkah 10: Hibah SELECT di atas meja
- Langkah 11: Kueri data lake Menggunakan Amazon Athena
Audiens yang dituju
Tabel berikut mencantumkan peran yang digunakan dalam tutorial ini untuk membuat danau data.
Peran | Deskripsi |
---|---|
IAMAdministrator | Memiliki kebijakan AWS terkelola:AdministratorAccess . Dapat membuat IAM peran dan bucket Amazon S3. |
Administrator danau data | Pengguna yang dapat mengakses katalog data, membuat database, dan memberikan izin Lake Formation kepada pengguna lain. Memiliki IAM izin lebih sedikit daripada IAM administrator, tetapi cukup untuk mengelola data lake. |
Analis data | Pengguna yang dapat menjalankan kueri terhadap data lake. Hanya memiliki izin yang cukup untuk menjalankan kueri. |
Peran alur kerja | Berperan dengan IAM kebijakan yang diperlukan untuk menjalankan alur kerja. Untuk informasi selengkapnya, lihat (Opsional) Buat IAM peran untuk alur kerja. |
Prasyarat
Sebelum Anda memulai:
-
Pastikan Anda telah menyelesaikan tugas diMengatur AWS Lake Formation.
-
Ketahui lokasi CloudTrail log Anda.
-
Athena mengharuskan persona analis data untuk membuat bucket Amazon S3 untuk menyimpan hasil kueri sebelum menggunakan Athena.
Keakraban dengan AWS Identity and Access Management (IAM) diasumsikan. Untuk selengkapnyaIAM, lihat Panduan IAM Pengguna.
Langkah 1: Buat pengguna analis data
Pengguna ini memiliki set izin minimum untuk menanyakan data lake.
-
Buka konsol IAM di https://console.aws.amazon.com/iam
. Masuk sebagai pengguna administrator yang Anda buat Buat pengguna dengan akses administratif atau sebagai pengguna dengan kebijakan AdministratorAccess
AWS terkelola. -
Buat pengguna bernama
datalake_user
dengan pengaturan berikut:-
Aktifkan AWS Management Console akses.
-
Tetapkan kata sandi dan tidak memerlukan pengaturan ulang kata sandi.
-
Lampirkan kebijakan
AmazonAthenaFullAccess
AWS terkelola. -
Lampirkan kebijakan inline berikut. Sebutkan kebijakan
DatalakeUserBasic
.{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "lakeformation:GetDataAccess", "glue:GetTable", "glue:GetTables", "glue:SearchTables", "glue:GetDatabase", "glue:GetDatabases", "glue:GetPartitions", "lakeformation:GetResourceLFTags", "lakeformation:ListLFTags", "lakeformation:GetLFTag", "lakeformation:SearchTablesByLFTags", "lakeformation:SearchDatabasesByLFTags" ], "Resource": "*" } ] }
-
Langkah 2: Tambahkan izin untuk membaca AWS CloudTrail log ke peran alur kerja
-
Lampirkan kebijakan inline berikut ke peran
LakeFormationWorkflowRole
. Kebijakan memberikan izin untuk membaca AWS CloudTrail log Anda. Sebutkan kebijakanDatalakeGetCloudTrail
.Untuk membuat
LakeFormationWorkflowRole
peran, lihat(Opsional) Buat IAM peran untuk alur kerja.penting
Ganti
<your-s3-cloudtrail-bucket>
dengan lokasi Amazon S3 data Anda CloudTrail .{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": "s3:GetObject", "Resource": ["arn:aws:s3:::
<your-s3-cloudtrail-bucket>
/*"] } ] } -
Verifikasi bahwa ada tiga kebijakan yang melekat pada peran tersebut.
Langkah 3: Buat bucket Amazon S3 untuk data lake
Buat bucket Amazon S3 yang akan menjadi lokasi root danau data Anda.
-
Buka konsol Amazon S3 di https://console.aws.amazon.com/s3/
dan masuk sebagai pengguna administrator yang Anda buat. Buat pengguna dengan akses administratif -
Pilih Buat ember, dan buka wizard untuk membuat ember bernama
, di mana<yourName>
-datalake-cloudtrail<yourName>
adalah nama awal dan belakang pertama Anda. Sebagai contoh:jdoe-datalake-cloudtrail
.Untuk petunjuk mendetail tentang cara membuat bucket Amazon S3, lihat Membuat bucket.
Langkah 4: Daftarkan jalur Amazon S3
Daftarkan jalur Amazon S3 sebagai lokasi root danau data Anda.
-
Buka konsol Lake Formation di https://console.aws.amazon.com/lakeformation/
. Masuk sebagai administrator danau data. -
Di panel navigasi, di bawah Daftar dan konsumsi, pilih Lokasi danau data.
-
Pilih Daftar lokasi dan kemudian Jelajahi.
-
Pilih
bucket yang Anda buat sebelumnya, terima IAM peran default<yourName>
-datalake-cloudtrailAWSServiceRoleForLakeFormationDataAccess
, lalu pilih Daftar lokasi.Untuk informasi selengkapnya tentang mendaftarkan lokasi, lihatMenambahkan lokasi Amazon S3 ke danau data Anda.
Langkah 5: Berikan izin lokasi data
Prinsipal harus memiliki izin lokasi data pada lokasi data lake untuk membuat tabel Katalog Data atau database yang mengarah ke lokasi tersebut. Anda harus memberikan izin lokasi data ke IAM peran alur kerja sehingga alur kerja dapat menulis ke tujuan konsumsi data.
-
Di panel navigasi, di bawah Izin, pilih Lokasi data.
-
Pilih Hibah, dan di kotak dialog Hibah izin, buat pilihan ini:
-
Untuk IAMpengguna dan peran, pilih
LakeFormationWorkflowRole
. -
Untuk lokasi Penyimpanan, pilih
bucket Anda.<yourName>
-datalake-cloudtrail
-
-
PilihIzin.
Untuk informasi selengkapnya tentang izin lokasi data, lihatUnderlying data access control.
Langkah 6: Buat database di Katalog Data
Tabel metadata dalam Katalog Data Lake Formation disimpan dalam database.
-
Di panel navigasi, di bawah Katalog data, pilih Database.
-
Pilih Buat database, dan di bawah rincian Database, masukkan nama
lakeformation_cloudtrail
. -
Biarkan bidang lainnya kosong, dan pilih Buat database.
Langkah 7: Berikan izin data
Anda harus memberikan izin untuk membuat tabel metadata di Katalog Data. Karena alur kerja akan berjalan dengan peranLakeFormationWorkflowRole
, Anda harus memberikan izin ini ke peran tersebut.
-
Di konsol Lake Formation, di panel navigasi, di bawah Katalog data, pilih Database.
-
Pilih
lakeformation_cloudtrail
database, lalu, dari daftar drop-down Tindakan, pilih Hibah di bawah judul Izin. -
Di kotak dialog Berikan izin data, buat pilihan ini:
-
Di bawah Prinsipal, untuk IAMpengguna dan peran, pilih.
LakeFormationWorkflowRole
-
Di bawah LF-tag atau sumber katalog, pilih Sumber daya katalog data bernama.
-
Untuk Database, Anda harus melihat bahwa
lakeformation_cloudtrail
database sudah ditambahkan. -
Di bawah Izin database, pilih Buat tabel, Ubah, dan Jatuhkan, dan hapus Super jika dipilih.
Kotak dialog izin data Grant Anda sekarang akan terlihat seperti tangkapan layar ini.
-
-
PilihIzin.
Untuk informasi selengkapnya tentang pemberian izin Lake Formation, lihat. Mengelola izin Lake Formation
Langkah 8: Gunakan cetak biru untuk membuat alur kerja
Untuk membaca CloudTrail log, memahami strukturnya, membuat tabel yang sesuai di Katalog Data, kita perlu mengatur alur kerja yang terdiri dari AWS Glue crawler, pekerjaan, pemicu, dan alur kerja. Cetak biru Lake Formation menyederhanakan proses ini.
Alur kerja menghasilkan pekerjaan, crawler, dan pemicu yang menemukan dan menelan data ke dalam data lake Anda. Anda membuat alur kerja berdasarkan salah satu cetak biru Lake Formation yang telah ditentukan sebelumnya.
-
Di konsol Lake Formation, di panel navigasi, pilih Blueprints, lalu pilih Use blueprint.
-
Pada halaman Gunakan cetak biru, di bawah Jenis cetak biru, pilih. AWS CloudTrail
-
Di bawah Impor sumber, pilih CloudTrail sumber dan tanggal mulai.
-
Di bawah target Impor, tentukan parameter ini:
Basis data target lakeformation_cloudtrail
Lokasi penyimpanan target s3://
<yourName>
-datalake-cloudtrailFormat data Parquet -
Untuk frekuensi impor, pilih Jalankan sesuai permintaan.
-
Di bawah opsi Impor, tentukan parameter ini:
Nama alur kerja lakeformationcloudtrailtest
IAMperan LakeFormationWorkflowRole
Awalan tabel cloudtrailtest
catatan
Harus huruf kecil.
-
Pilih Buat, dan tunggu konsol melaporkan bahwa alur kerja berhasil dibuat.
Tip
Apakah Anda mendapatkan pesan kesalahan berikut?
User: arn:aws:iam::
<account-id>
:user/<datalake_administrator_user>
is not authorized to perform: iam:PassRole on resource:arn:aws:iam::<account-id>
:role/LakeFormationWorkflowRole...Jika demikian, periksa apakah Anda mengganti
<account-id>
dalam kebijakan inline untuk pengguna administrator danau data dengan nomor AWS akun yang valid.
Langkah 9: Jalankan alur kerja
Karena Anda menentukan bahwa alur kerjanya run-on-demand, Anda harus memulai alur kerja secara manual.
-
Pada halaman Blueprints, pilih alur kerja, dan pada menu Tindakan
lakeformationcloudtrailtest
, pilih Mulai.Saat alur kerja berjalan, Anda dapat melihat kemajuannya di kolom Status Last run. Pilih tombol refresh sesekali.
Statusnya berubah dari RUNNING, ke Menemukan, Mengimpor, ke. COMPLETED
Saat alur kerja selesai:
-
Katalog Data akan memiliki tabel metadata baru.
-
CloudTrail Log Anda akan dicerna ke danau data.
Jika alur kerja gagal, lakukan hal berikut:
-
Pilih alur kerja, dan pada menu Tindakan, pilih Lihat grafik.
Alur kerja terbuka di AWS Glue konsol.
-
Pastikan bahwa alur kerja sudah dipilih, dan pilih tab Riwayat.
-
Di bawah Riwayat, pilih proses terbaru dan pilih Lihat detail jalankan.
-
Pilih job atau crawler yang gagal dalam grafik dinamis (runtime), dan tinjau pesan galatnya. Node yang gagal berwarna merah atau kuning.
-
Langkah 10: Hibah SELECT di atas meja
Anda harus memberikan SELECT
izin pada tabel Katalog Data baru sehingga analis data dapat melakukan kueri data yang ditunjukkan tabel.
catatan
Alur kerja secara otomatis memberikan SELECT
izin pada tabel yang dibuatnya kepada pengguna yang menjalankannya. Karena administrator data lake menjalankan alur kerja ini, Anda harus memberikan SELECT
kepada analis data.
-
Di konsol Lake Formation, di panel navigasi, di bawah Katalog data, pilih Database.
-
Pilih
lakeformation_cloudtrail
database, lalu, dari daftar drop-down Tindakan, pilih Hibah di bawah judul Izin. -
Di kotak dialog Berikan izin data, buat pilihan ini:
-
Di bawah Prinsipal, untuk IAMpengguna dan peran, pilih.
datalake_user
-
Di bawah LF-tag atau sumber katalog, pilih Sumber daya katalog data bernama.
-
Untuk Database,
lakeformation_cloudtrail
database harus sudah dipilih. -
Untuk Tabel, pilih
cloudtrailtest-cloudtrail
. -
Di bawah Izin tabel dan kolom, pilih Pilih.
-
-
PilihIzin.
Langkah selanjutnya dilakukan sebagai analis data.
Langkah 11: Kueri data lake Menggunakan Amazon Athena
Gunakan Amazon Athena konsol untuk menanyakan CloudTrail data di danau data Anda.
-
Buka konsol Athena di https://console.aws.amazon.com/athena/
dan masuk sebagai analis data, pengguna. datalake_user
-
Jika perlu, pilih Mulai untuk melanjutkan ke editor kueri Athena.
-
Untuk Sumber Data, pilih AwsDataCatalog.
-
Untuk Database, pilih
lakeformation_cloudtrail
.Daftar Tabel terisi.
-
Pada menu overflow (3 titik disusun secara horizontal) di samping tabel, pilih tabel Pratinjau
cloudtrailtest-cloudtrail
, lalu pilih Jalankan.Kueri berjalan dan menampilkan 10 baris data.
Jika Anda belum pernah menggunakan Athena sebelumnya, Anda harus terlebih dahulu mengonfigurasi lokasi Amazon S3 di konsol Athena untuk menyimpan hasil kueri.
datalake_user
Harus memiliki izin yang diperlukan untuk mengakses bucket Amazon S3 yang Anda pilih.
catatan
Sekarang setelah Anda menyelesaikan tutorial, berikan izin data dan izin lokasi data ke kepala sekolah di organisasi Anda.