Menulis tugas dengan konektor kustom - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menulis tugas dengan konektor kustom

Anda dapat menggunakan konektor dan koneksi untuk node sumber data dan node target data diAWS Glue Studio.

Membuat tugas yang menggunakan sebuah konektor untuk sumber data

Saat membuat sebuah tugas baru, Anda dapat memilih sebuah konektor untuk sumber data dan target data.

Untuk membuat sebuah tugas yang menggunakan konektor untuk sumber data atau target data
  1. Masuk ke AWS Management Console dan buka AWS Glue Studio konsol di https://console.aws.amazon.com/gluestudio/.

  2. Pada halaman Konektor, di daftar sumber daya Koneksi Anda, pilih koneksi yang ingin Anda gunakan dalam tugas Anda, dan kemudian pilih Buat tugas.

    Atau, pada halaman AWS Glue Studio Pekerjaan, di bawah Buat pekerjaan, pilih Sumber dan target ditambahkan ke grafik. pada daftar drop-down Sumber, pilih konektor kustom yang ingin Anda gunakan dalam tugas Anda. Anda juga dapat memilih sebuah konektor untuk Target.

    Gambarnya adalah tangkapan lapar dari halaman Tugas, dengan daftar drop-down Sumber yang dipilih, yang menampilkan berbagai sumber data yang dapat dipilih untuk tugas, termasuk konektor.
  3. Pilih Buat untuk membuka editor tugas visual.

  4. Konfigurasi simpul sumber data, seperti yang dijelaskan dalam Konfigurasi properti sumber untuk simpul yang menggunakan konektor.

  5. Lanjutkan membuat ETL pekerjaan Anda dengan menambahkan transformasi, penyimpanan data tambahan, dan target data, seperti yang dijelaskan dalamMemulai ETL pekerjaan visual di AWS Glue Studio.

  6. Sesuaikan lingkungan eksekusi tugas dengan mengkonfigurasi properti tugas, seperti yang dijelaskan dalam Mengubah properti tugas.

  7. Simpan dan jalankan tugas.

Konfigurasi properti sumber untuk simpul yang menggunakan konektor

Setelah Anda membuat sebuah tugas yang menggunakan sebuah konektor untuk sumber data, editor tugas visual akan menampilkan grafik tugas dengan simpul sumber data yang dikonfigurasi untuk konektor tersebut. Anda harus mengkonfigurasi properti sumber data untuk simpul tersebut.

Untuk mengkonfigurasi properti untuk simpul sumber data yang menggunakan sebuah konektor
  1. Pilih simpul sumber data konektor dalam grafik tugas atau tambahkan sebuah simpul baru dan pilih konektor untuk Jenis Simpul. Kemudian, di sisi kanan, di panel detail simpul, pilih tab Properti sumber data, jika belum dipilih.

    Gambar adalah tangkapan layar dari halaman editor pekerjaan AWS Glue Studio visual, dengan simpul sumber data yang dipilih dalam grafik. Tab Properti sumber data di sebelah kanan sudah dipilih. Bidang-bidang yang ditampilkan untuk properti sumber data adalah tombol Koneksi (daftar drop-down koneksi yang tersedia, diikuti dengan tombol Refresh) dan tombol Tambahkan skema. Bagian pilihan Koneksi tambahan ditampilkan dalam status pilihan-pilihannya ditampilkan.
  2. Di tab Properti sumber data, pilih koneksi yang ingin Anda gunakan untuk tugas ini.

    Masukkan informasi tambahan yang diperlukan untuk masing-masing jenis koneksi:

    JDBC
    • Jenis input sumber data: Pilih untuk memberikan nama tabel atau SQL kueri sebagai sumber data. Tergantung pada pilihan Anda, Anda kemudian harus memberikan informasi tambahan berikut:

      • Nama tabel: Nama tabel di sumber data. Jika sumber data tidak menggunakan tabel istilah, maka berikan nama struktur data yang sesuai, seperti yang ditunjukkan oleh informasi penggunaan konektor kustom (yang tersedia di AWS Marketplace).

      • Predikat filter: Syarat klausul yang akan digunakan ketika membaca sumber data, mirip dengan klausul WHERE, yang digunakan untuk mengambil subset dari data.

      • Kode kueri: Masukkan SQL kueri yang akan digunakan untuk mengambil kumpulan data tertentu dari sumber data. Contoh SQL kueri dasar adalah:

        SELECT column_list FROM table_name WHERE where_clause
    • Skema: Karena AWS Glue Studio menggunakan informasi yang disimpan dalam koneksi untuk mengakses sumber data alih-alih mengambil informasi metadata dari tabel Katalog Data, Anda harus menyediakan metadata skema untuk sumber data. Pilih Tambahkan skema untuk membuka editor skema.

      Untuk petunjuk tentang cara menggunakan editor skema, lihat Mengedit skema di simpul transformasi kustom.

    • Kolom partisi: (Opsional) Anda dapat memilih untuk melakukan partisi pada pembacaan data dengan memberikan nilai-nilai untuk Kolom partisi, Batas bawah, Batas atas, dan Jumlah partisi.

      Nilai lowerBound dan upperBound digunakan untuk menentukan langkah partisi, bukan untuk menyaring baris dalam tabel. Semua baris dalam tabel dipartisi dan dikembalikan.

      catatan

      Pemartisian kolom menambahkan syarat pemartisian tambahan untuk kueri yang digunakan untuk membaca data. Bila menggunakan sebuah kueri bukan nama sebuah tabel, maka Anda harus memvalidasi bahwa kueri bekerja dengan syarat pemartisian yang ditentukan. Sebagai contoh:

      • Jika format kueri Anda adalah "SELECT col1 FROM table1", maka uji kueri dengan menambahkan klausul WHERE pada akhir kueri yang menggunakan kolom partisi.

      • Jika format kueri Anda adalah "SELECT col1 FROM table1 WHERE col2=val", maka uji kueri dengan memperluas klausul WHERE dengan AND dan ekspresi yang menggunakan kolom partisi.

    • Pengecoran tipe data: Jika sumber data menggunakan tipe data yang tidak tersediaJDBC, gunakan bagian ini untuk menentukan bagaimana tipe data dari sumber data harus diubah menjadi tipe JDBC data. Anda dapat menentukan hingga 50 konversi tipe data yang berbeda. Semua kolom dalam sumber data yang menggunakan tipe data yang sama akan dikonversi dengan cara yang sama.

      Misalnya, jika Anda memiliki tiga kolom dalam sumber data yang menggunakan tipe Float data, dan Anda menunjukkan bahwa tipe Float data harus dikonversi ke tipe JDBC String data, maka ketiga kolom yang menggunakan tipe Float data dikonversi ke tipe String data.

    • Kunci bookmark tugas: Bookmark tugas membantu AWS Glue menjaga informasi status dan mencegah pengolahan ulang data lama. Tentukan satu lagi satu atau lebih kolom sebagai tombol bookmark. AWS Glue Studiomenggunakan tombol bookmark untuk melacak data yang telah diproses selama menjalankan ETL pekerjaan sebelumnya. Kolom apa pun yang Anda gunakan untuk kunci bookmark kustom harus secara ketat dan secara monoton meningkat atau menurun, namun kesenjangan diizinkan.

      Jika Anda memasukkan beberapa kunci bookmark, maka kunci tersebut digabungkan untuk membentuk satu kunci gabungan. Kunci bookmark tugas gabungan tidak boleh berisi kolom duplikat. Jika Anda tidak menentukan kunci bookmark, secara AWS Glue Studio default menggunakan kunci primer sebagai kunci bookmark, asalkan kunci utama meningkat atau menurun secara berurutan (tanpa celah). Jika tabel tidak memiliki kunci primer, namun properti bookmark tugas diaktifkan, maka Anda harus menyediakan kunci bookmark tugas kustom. Jika tidak, pencarian kunci primer yang akan digunakan sebagai default akan gagal dan eksekusi tugas akan gagal.

    • Kunci bookmark tugas yang mengurutkan urutan: Pilih apakah nilai kunci secara berurutan meningkat atau menurun.

    Spark
    • Skema: Karena AWS Glue Studio menggunakan informasi yang disimpan dalam koneksi untuk mengakses sumber data alih-alih mengambil informasi metadata dari tabel Katalog Data, Anda harus menyediakan metadata skema untuk sumber data. Pilih Tambahkan skema untuk membuka editor skema.

      Untuk petunjuk tentang cara menggunakan editor skema, lihat Mengedit skema di simpul transformasi kustom.

    • Opsi koneksi: Masukkan pasangan nilai-kunci tambahan yang diperlukan untuk memberikan informasi koneksi atau pilihan tambahan. Misalnya, Anda dapat memasukkan nama basis data, nama tabel, nama pengguna, dan kata sandi.

      Misalnya, untuk OpenSearch, Anda memasukkan pasangan kunci-nilai berikut, seperti yang dijelaskan dalam: Tutorial: Menggunakan AWS Glue Konektor untuk Elasticsearch

      • es.net.http.auth.user : username

      • es.net.http.auth.pass : password

      • es.nodes : https://<Elasticsearch endpoint>

      • es.port : 443

      • path: <Elasticsearch resource>

      • es.nodes.wan.only : true

    Untuk contoh opsi koneksi minimum yang akan digunakan, lihat contoh skrip pengujian MinimalSparkConnectorTest.scala aktif GitHub, yang menunjukkan opsi koneksi yang biasanya Anda berikan dalam koneksi.

    Athena
    • Nama tabel: Nama tabel di sumber data. Jika Anda menggunakan konektor untuk membaca dari Athena- CloudWatch log, Anda akan memasukkan nama tabel. all_log_streams

    • Nama skema Athena: Pilih skema di sumber data Athena Anda yang sesuai dengan basis data yang berisi tabel. Jika Anda menggunakan konektor untuk membaca dari Athena- CloudWatch log, Anda akan memasukkan nama skema yang mirip dengan. /aws/glue/name

    • Skema: Karena AWS Glue Studio menggunakan informasi yang disimpan dalam koneksi untuk mengakses sumber data alih-alih mengambil informasi metadata dari tabel Katalog Data, Anda harus menyediakan metadata skema untuk sumber data. Pilih Tambahkan skema untuk membuka editor skema.

      Untuk petunjuk tentang cara menggunakan editor skema, lihat Mengedit skema di simpul transformasi kustom.

    • Opsi koneksi tambahan: Masukkan pasangan nilai-kunci tambahan yang diperlukan untuk memberikan informasi koneksi atau pilihan tambahan.

    Sebagai contoh, lihat README.md file di https://github.com/aws-samples/aws-glue-samples/tree/master/ /development/Athena GlueCustomConnectors. Dalam langkah-langkah dalam dokumen ini, kode sampel menunjukkan opsi koneksi minimal yang diperlukan, yakni tableName, schemaName, dan className. Contoh kode menentukan pilihan ini sebagai bagian dari variabel optionsMap, tetapi Anda dapat menentukan mereka untuk koneksi Anda dan kemudian menggunakan koneksi tersebut.

  3. (Opsional) Setelah memberikan informasi yang diperlukan, Anda dapat melihat skema data yang dihasilkan untuk sumber data Anda dengan memilih tab Skema output di panel detail simpul. Skema yang ditampilkan pada tab ini digunakan oleh setiap simpul anak yang Anda tambahkan ke grafik tugas.

  4. (Opsional) Setelah mengkonfigurasi properti simpul dan properti sumber data, Anda dapat melihat pratinjau set data dari sumber data Anda dengan memilih tab Pratinjau data di panel detail simpul. Pertama kali Anda memilih tab ini untuk setiap node dalam pekerjaan Anda, Anda diminta untuk memberikan IAM peran untuk mengakses data. Ada biaya yang terkait dengan penggunaan fitur ini, dan penagihan dimulai segera setelah Anda memberikan IAM peran.

Mengkonfigurasi properti target untuk simpul yang menggunakan konektor

Jika Anda menggunakan sebuah konektor untuk jenis target data, maka Anda harus mengkonfigurasi properti data target simpul.

Untuk mengkonfigurasi properti untuk simpul target data yang menggunakan sebuah konektor
  1. Pilih simpul target data konektor dalam grafik tugas. Kemudian, di sisi kanan, di panel detail simpul, pilih tab Properti target data, jika belum dipilih.

  2. Di tab Properti target data, pilih koneksi yang akan digunakan untuk menulis ke target.

    Masukkan informasi tambahan yang diperlukan untuk masing-masing jenis koneksi:

    JDBC
    • Koneksi: Pilih koneksi yang akan digunakan dengan konektor Anda. Untuk informasi tentang cara membuat sebuah koneksi, lihat Membuat koneksi untuk konektor.

    • Nama tabel: Nama tabel di target data. Jika target data tidak menggunakan tabel istilah, maka berikan nama struktur data yang sesuai, seperti yang ditunjukkan oleh informasi penggunaan konektor kustom (yang tersedia di AWS Marketplace).

    • Ukuran Batch (Opsional): Masukkan jumlah baris atau catatan yang akan disisipkan dalam tabel target dalam satu operasi. Nilai default-nya adalah 1000 baris.

    Spark
    • Koneksi: Pilih koneksi yang akan digunakan dengan konektor Anda. Jika Anda tidak membuat sebuah koneksi sebelumnya, pilih Buat koneksi untuk membuatnya. Untuk informasi tentang cara membuat sebuah koneksi, lihat Membuat koneksi untuk konektor.

    • Opsi koneksi: Masukkan pasangan nilai-kunci tambahan yang diperlukan untuk memberikan informasi koneksi atau pilihan tambahan. Anda dapat memasukkan sebuah nama basis data, nama tabel, nama pengguna, dan kata sandi.

      Misalnya, untuk OpenSearch, Anda memasukkan pasangan kunci-nilai berikut, seperti yang dijelaskan dalam: Tutorial: Menggunakan AWS Glue Konektor untuk Elasticsearch

      • es.net.http.auth.user : username

      • es.net.http.auth.pass : password

      • es.nodes : https://<Elasticsearch endpoint>

      • es.port : 443

      • path: <Elasticsearch resource>

      • es.nodes.wan.only : true

    Untuk contoh opsi koneksi minimum yang akan digunakan, lihat contoh skrip pengujian MinimalSparkConnectorTest.scala aktif GitHub, yang menunjukkan opsi koneksi yang biasanya Anda berikan dalam koneksi.

  3. Setelah memberikan informasi yang diperlukan, Anda dapat melihat skema data yang dihasilkan untuk sumber data Anda dengan memilih tab Skema output di panel detail simpul.