Mendefinisikan nama bucket dan path S3 untuk layer data lake diAWS Cloud

Isabelle Imacseng, Samuel Schmidt, dan Andrés Cantor, Amazon Web Services (AWS)

November 2021 (riwayat dokumen)

Panduan ini membantu Anda membuat standar penamaan yang konsisten untuk bucket dan jalur Amazon Simple Storage Service (Amazon S3) di data lake yang dihosting di Amazon Web Services (AWS) Cloud. Standar penamaan panduan untuk bucket dan jalur S3 membantu Anda meningkatkan tata kelola dan observabilitas dalam data lake Anda, mengidentifikasi biaya berdasarkan lapisan data danAkun AWS, serta memberikan pendekatan untuk peran dan kebijakan penamaanAWS Identity and Access Management (IAM).

Kami menyarankan Anda menggunakan setidaknya tiga lapisan data di data lake Anda dan bahwa setiap lapisan menggunakan bucket S3 terpisah. Namun, beberapa kasus penggunaan mungkin memerlukan bucket S3 tambahan dan lapisan data, tergantung pada tipe data yang Anda buat dan simpan. Misalnya, jika Anda menyimpan data sensitif, sebaiknya gunakan layer data landing zone dan bucket S3 terpisah. Daftar berikut menjelaskan tiga lapisan data yang direkomendasikan untuk data lake Anda:

Lapisan data mentah - Berisi data mentah dan merupakan lapisan di mana data awalnya dicerna. Jika memungkinkan, sebaiknya simpan format file asli dan aktifkan versi di bucket S3.
Lapisan data tahap - Berisi data perantara dan diproses yang dioptimalkan untuk konsumsi (misalnya CSV ke Apache Parquet dikonversi file mentah atau transformasi data). AWS GluePekerjaan membaca file dari lapisan mentah dan memvalidasi data. AWS GluePekerjaan kemudian menyimpan data dalam file Apache Parquet-diformat dan metadata disimpan dalam tabel di KatalogAWS Glue Data.
Lapisan data Analytics - Berisi data agregat untuk kasus penggunaan spesifik Anda dalam format siap konsumsi (misalnya, Apache Parquet).

Rekomendasi panduan ini didasarkan pada pengalaman penulis dalam menerapkan data lake dengan kerangka data lake tanpa server (SDLF) dan ditujukan untuk arsitek data, insinyur data, atau arsitek solusi yang ingin menyiapkan data lake diAWS Cloud. Namun, Anda harus memastikan bahwa Anda menyesuaikan pendekatan panduan ini untuk memenuhi kebijakan dan persyaratan organisasi Anda.

Panduan berisi bagian berikut:

Hasil bisnis yang ditargetkan

Anda harus mengharapkan lima hasil berikut setelah menerapkan standar penamaan untuk bucket dan jalur S3 di data lake diAWS Cloud:

Peningkatan tata kelola dan observabilitas di data lake Anda.
Peningkatan visibilitas ke biaya keseluruhan Anda untuk individuAkun AWS dengan menggunakan IDAWS akun yang relevan dalam nama bucket S3 dan untuk lapisan data dengan menggunakan tag alokasi biaya untuk bucket S3.
Penyimpanan data yang lebih hemat biaya dengan menggunakan versi berbasis lapisan dan kebijakan siklus hidup berbasis jalur.
Memenuhi persyaratan keamanan untuk penyamaran data dan enkripsi data.
Sederhanakan pelacakan sumber data dengan meningkatkan visibilitas pengembang keWilayah AWS danAkun AWS penyimpanan data yang mendasarinya.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Lapisan data yang disarankan