Ikhtisar penggunaan AWS Glue - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Ikhtisar penggunaan AWS Glue

Dengan AWS Glue, Anda menyimpan metadata di AWS Glue Data Catalog. Anda menggunakan metadata ini untuk mengatur tugas ETL yang mengubah sumber data dan memuat gudang data atau danau data Anda. Langkah-langkah berikut menjelaskan alur kerja umum dan beberapa pilihan yang Anda buat saat bekerja dengan AWS Glue.

catatan

Anda dapat menggunakan langkah-langkah berikut, atau Anda dapat membuat alur kerja yang secara otomatis melakukan langkah 1 hingga 3. Untuk informasi selengkapnya, lihat Melakukan aktivitas ETL yang kompleks menggunakan cetak biru dan alur kerja di AWS Glue.

  1. Mengisi AWS Glue Data Catalog dengan definisi tabel.

    Di konsol, untuk penyimpanan data persisten, Anda dapat menambahkan crawler untuk mengisi AWS Glue Data Catalog. Anda dapat memulai penuntun Tambahkan crawler dari daftar tabel atau daftar crawler. Anda memilih satu atau beberapa penyimpanan data untuk diakses oleh crawler Anda. Anda juga dapat membuat jadwal untuk menentukan seberapa sering Anda menjalankan crawler Anda. Untuk aliran data, Anda dapat secara manual membuat definisi tabel, dan menentukan properti pengaliran.

    Opsional, Anda dapat memberikan pengklasifikasi kustom yang menyimpulkan skema data Anda. Anda dapat membuat pengklasifikasi kustom dengan menggunakan pola grok. Namun, AWS Glue menyediakan pengklasifikasi bawaan yang secara otomatis digunakan oleh crawler jika pengklasifikasi kustom tidak mengenali data Anda. Saat menentukan crawler, Anda tidak perlu memilih pengklasifikasi. Untuk informasi selengkapnya tentang cara mengklasifikasikan di AWS Glue, lihat Mendefinisikan dan mengelola pengklasifikasi.

    Melakukan crawling pada beberapa jenis penyimpanan data yang memerlukan koneksi yang menyediakan autentikasi dan informasi lokasi. Jika diperlukan, Anda dapat membuat koneksi yang menyediakan informasi yang diperlukan ini di konsol AWS Glue.

    Crawler membaca penyimpanan data Anda dan membuat definisi data dan tabel bernama di AWS Glue Data Catalog. Tabel ini diatur ke dalam basis data pilihan Anda. Anda juga dapat mengisi Katalog Data dengan tabel yang dibuat secara manual. Dengan metode ini, Anda menyediakan skema dan metadata lainnya untuk membuat tabel definisi dalam Katalog Data tersebut. Karena metode ini bisa sedikit membosankan dan rawan kesalahan, maka sebaiknya Anda biarkan crawler membuat definisi tabel.

    Untuk informasi selengkapnya tentang cara mengisi AWS Glue Data Catalog dengan definisi tabel, lihat Membuat tabel.

  2. Mendefinisikan tugas yang menggambarkan transformasi data dari sumber ke target.

    Umumnya, untuk membuat tugas, Anda harus membuat pilihan berikut:

    • Pilih tabel dari AWS Glue Data Catalog untuk menjadi sumber tugas. Tugas Anda menggunakan definisi tabel ini untuk mengakses sumber data Anda dan menafsirkan format data Anda.

    • Pilih tabel atau lokasi dari AWS Glue Data Catalog untuk menjadi target tugas. Tugas Anda menggunakan informasi ini untuk mengakses penyimpanan data Anda.

    • Katakan AWS Glue untuk menghasilkan skrip untuk mengubah sumber Anda menjadi target. AWS Gluemenghasilkan kode untuk memanggil transformasi bawaan untuk mengonversi data dari skema sumbernya ke format skema target. Transformasi ini melakukan operasi seperti salin data, mengubah nama kolom, dan mem-filter data untuk mengubah data yang diperlukan. Anda dapat memodifikasi skrip ini di konsol AWS Glue.

    Untuk informasi selengkapnya tentang cara menentukan tugas di AWS Glue, lihat Membangun ETL pekerjaan visual dengan AWS Glue Studio.

  3. Jalankan tugas Anda untuk melakukan transformasi pada data Anda.

    Anda dapat menjalankan tugas Anda sesuai permintaan, atau memulainya berdasarkan salah satu jenis pemicu ini:

    • Pemicu yang berbasis jadwal cron.

    • Pemicu yang berbasis peristiwa; misalnya, berhasil menyelesaikan tugas lain dapat memulai tugas AWS Glue.

    • Pemicu yang memulai tugas sesuai permintaan.

    Untuk informasi lebih lanjut tentang pemicu di AWS Glue, lihat Memulai pekerjaan dan crawler menggunakan pemicu.

  4. Pantau crawler terjadwal dan tugas terpicu Anda.

    Gunakan konsol AWS Glue untuk melihat hal berikut ini:

    • Detail dan kesalahan eksekusi tugas.

    • Detail dan kesalahan eksekusi crawler.

    • Notifikasi tentang aktivitas AWS Glue

    Untuk informasi selengkapnya tentang cara memantau crawler dan tugas di AWS Glue, lihat Pemantauan AWS Glue.