Membangun ETL pekerjaan visual dengan AWS Glue Studio - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Membangun ETL pekerjaan visual dengan AWS Glue Studio

Sesi AWS Glue Sebuah tugas merangkum skrip yang terhubung ke sumber data Anda, memprosesnya, dan kemudian menuliskannya ke target data Anda. Biasanya, sebuah tugas menjalankan skrip extract, transform, and load (ETL). Jobs dapat menjalankan skrip yang dirancang untuk lingkungan runtime Apache Spark dan Ray. Tugas juga dapat menjalankan skrip Python tujuan umum (tugas shell Python.) AWS Glue pemicu dapat memulai tugas berdasarkan jadwal atau peristiwa, atau sesuai permintaan. Anda dapat memantau eksekusi tugas untuk memahami metrik waktu aktif seperti status penyelesaian, durasi, dan waktu mulai.

Anda dapat menggunakan skrip yang AWS Glue menghasilkan atau Anda dapat memberikan milik Anda sendiri. Dengan skema sumber dan lokasi target atau skema, AWS Glue Studio pembuat kode dapat secara otomatis membuat skrip Apache Spark API (PySpark). Anda dapat menggunakan skrip ini sebagai titik awal dan mengedit skrip tersebut untuk memenuhi tujuan Anda.

AWS Glue dapat menulis file output dalam beberapa format data. Setiap jenis pekerjaan dapat mendukung format output yang berbeda. Untuk beberapa format data, format-format kompresi umum dapat ditulis.

Masuk ke AWS Glue konsol

Sebuah tugas AWS Glue terdiri dari logika bisnis yang melakukan tugas extract, transform, and load (ETL). Anda dapat membuat tugas di ETLbagian AWS Glue konsol.

Untuk melihat tugas yang ada, masuk ke AWS Management Console dan buka AWS Glue konsol di https://console.aws.amazon.com/glue/. Kemudian pilih tab Jobs di AWS Glue. Daftar Tugas menampilkan lokasi skrip yang dikaitkan dengan setiap tugas, kapan tugas terakhir diubah, dan opsi bookmark tugas saat ini.

Saat membuat sebuah tugas baru, atau setelah Anda telah menyimpan tugas Anda, Anda dapat menggunakan kaleng AWS Glue Studio untuk memodifikasi ETL pekerjaan Anda. Anda dapat melakukan ini dengan mengedit simpul di editor visual atau dengan mengedit skrip tugas dalam mode developer. Anda juga dapat menambah dan menghapus simpul dalam editor visual untuk membuat ETL tugas yang lebih rumit.

Langkah selanjutnya untuk membuat tugas di AWS Glue Studio

Anda menggunakan editor tugas visual untuk mengkonfigurasi simpul untuk tugas Anda. Setiap simpul merupakan sebuah tindakan, seperti membaca data dari lokasi sumber atau menerapkan transformasi ke data. Setiap simpul yang Anda tambahkan ke tugas Anda memiliki properti yang memberikan informasi tentang lokasi data atau transformasinya.

Langkah selanjutnya untuk membuat dan mengelola tugas Anda adalah: