Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Cetak biru dan alur kerja di Lake Formation
Alur kerja merangkum aktivitas ekstrak, transformasi, dan beban () multi-pekerjaan yang kompleks. ETL Alur kerja menghasilkan AWS Glue crawler, pekerjaan, dan pemicu untuk mengatur pemuatan dan pembaruan data. Lake Formation mengeksekusi dan melacak alur kerja sebagai satu entitas. Anda dapat mengonfigurasi alur kerja agar berjalan sesuai permintaan atau sesuai jadwal.
Alur kerja yang Anda buat di Lake Formation terlihat di AWS Glue konsol sebagai grafik asiklik terarah (). DAG Setiap DAG node adalah job, crawler, atau trigger. Untuk memantau kemajuan dan pemecahan masalah, Anda dapat melacak status setiap node dalam alur kerja.
Ketika alur kerja Lake Formation telah selesai, pengguna yang menjalankan alur kerja diberikan SELECT
izin Lake Formation pada tabel Katalog Data yang dibuat oleh alur kerja.
Anda juga dapat membuat alur kerja di AWS Glue. Namun, karena Lake Formation memungkinkan Anda membuat alur kerja dari cetak biru, membuat alur kerja jauh lebih sederhana dan lebih otomatis di Lake Formation. Lake Formation menyediakan jenis cetak biru berikut:
-
Snapshot database — Memuat atau memuat ulang data dari semua tabel ke dalam data lake dari sumber. JDBC Anda dapat mengecualikan beberapa data dari sumber berdasarkan pola pengecualian.
-
Database tambahan — Memuat hanya data baru ke dalam data lake dari JDBC sumber, berdasarkan bookmark yang ditetapkan sebelumnya. Anda menentukan tabel individual dalam database JDBC sumber untuk disertakan. Untuk setiap tabel, Anda memilih kolom bookmark dan urutan sortir bookmark untuk melacak data yang sebelumnya telah dimuat. Pertama kali Anda menjalankan cetak biru database inkremental terhadap sekumpulan tabel, alur kerja memuat semua data dari tabel dan menetapkan bookmark untuk menjalankan cetak biru database inkremental berikutnya. Oleh karena itu, Anda dapat menggunakan cetak biru database tambahan alih-alih cetak biru snapshot database untuk memuat semua data, asalkan Anda menentukan setiap tabel di sumber data sebagai parameter.
-
File log - memuat data massal dari sumber file log, termasuk AWS CloudTrail, log Elastic Load Balancing, dan log Application Load Balancer.
Gunakan tabel berikut untuk membantu memutuskan apakah akan menggunakan snapshot database atau cetak biru database inkremental.
Gunakan snapshot database saat... | Gunakan database inkremental saat... |
---|---|
|
|
catatan
Pengguna tidak dapat mengedit cetakan biru dan alur kerja yang dibuat oleh Lake Formation.