Tutorial: Menggunakan AWS Glue Konektor untuk Elasticsearch - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Tutorial: Menggunakan AWS Glue Konektor untuk Elasticsearch

Elasticsearch adalah mesin pencarian dan analitik sumber terbuka populer untuk kasus penggunaan seperti analitik log, pemantauan aplikasi waktu nyata, dan analisis clickstream. Anda dapat menggunakan OpenSearch sebagai penyimpanan data untuk pekerjaan ekstrak, transformasi, dan load (ETL) Anda dengan mengonfigurasi AWS Glue Connector for Elasticsearch di. AWS Glue Studio Konektor ini tersedia secara gratis dari AWS Marketplace.

catatan

Konektor Spark AWS Marketplace Elasticsearch tidak digunakan lagi. Silakan gunakan AWS Glue Konektor untuk Elasticsearch sebagai gantinya.

Dalam tutorial ini, kami akan menunjukkan cara menghubungkan ke node OpenSearch Layanan Amazon Anda dengan jumlah langkah minimal.

Prasyarat

Untuk menggunakan tutorial ini, Anda harus memiliki hal-hal berikut ini:

  • Akses ke AWS Glue Studio

  • Akses ke OpenSearch klaster di AWS Cloud

  • (Opsional) Akses ke AWS Secrets Manager.

Langkah 1: (Opsional) Buat AWS rahasia untuk informasi OpenSearch cluster Anda

Untuk menyimpan dan menggunakan kredensial koneksi Anda dengan aman, simpan kredensial di AWS Secrets Manager. Rahasia yang Anda buat akan digunakan nanti dalam tutorial berdasarkan koneksi. Pasangan nilai kunci kredenal akan dimasukkan ke AWS Glue Konektor untuk Elasticsearch sebagai opsi koneksi normal.

Untuk informasi selengkapnya tentang membuat rahasia, lihat Membuat dan Mengelola Rahasia dengan AWS Secrets Manager di Panduan Pengguna AWS Secrets Manager .

Untuk membuat AWS rahasia
  1. Masuk ke konsol AWS Secrets Manager tersebut.

  2. Pada halaman pengenalan layanan atau halaman daftar Rahasia, pilih Menyimpan rahasia baru.

  3. Pada halaman Menyimpan rahasia baru, pilih Jenis rahasia lainnya. Pilihan ini berarti Anda harus menyediakan struktur dan detail rahasia Anda.

  4. Tambahkan pasangan Kunci dan Nilai untuk nama pengguna OpenSearch cluster. Sebagai contoh:

    es.net.http.auth.user: username

  5. Pilih + Tambahkan baris, dan masukkan pasangan nilai-kunci lain untuk kata sandi. Sebagai contoh:

    es.net.http.auth.pass: password

  6. Pilih Berikutnya.

  7. Masukkan nama rahasia. Misalnya: my-es-secret. Anda dapat menyertakan sebuah deskripsi.

    Catat nama rahasia, yang akan digunakan nanti dalam tutorial ini, dan kemudian pilih Selanjutnya.

  8. Pilih Selanjutnya lagi, lalu pilih Menyimpan untuk menciptakan rahasia.

Langkah selanjutnya

Langkah 2: Berlangganan ke konektor

Langkah 2: Berlangganan ke konektor

AWS Glue Konektor untuk Elasticsearch tersedia secara gratis. AWS Marketplace

Untuk berlangganan AWS Glue Konektor untuk Elasticsearch di AWS Marketplace
  1. Jika Anda belum mengonfigurasi AWS akun Anda untuk menggunakan License Manager, lakukan hal berikut:

    1. Buka AWS License Manager konsol di https://console.aws.amazon.com/license-manager.

    2. Pilih Buat lisensi terkelola pelanggan.

    3. Di jendela IAMizin (pengaturan satu kali), pilih Saya memberikan izin AWS License Manager yang diperlukan, lalu pilih Berikan izin.

      Jika Anda tidak melihat jendela ini, maka berarti Anda telah mengkonfigurasi izin yang diperlukan.

  2. Buka konsol AWS Glue Studio di https://console.aws.amazon.com/gluestudio/.

  3. Di AWS Glue Studio konsol, perluas ikon menu ( 3 short, horizontal lines in a vertical stack ), lalu pilih Konektor di panel navigasi.

  4. Pada halaman Konektor, pilih Buka AWS Marketplace.

  5. Di AWS Marketplace, di bagian Cari AWS Glue Studio produk, masukkan AWS Glue Konektor untuk Elasticsearch di bidang pencarian, lalu tekan Enter.

  6. Pilih nama konektor, AWS Glue Konektor untuk Elasticsearch.

  7. Pada halaman produk untuk konektor, gunakan tab untuk melihat informasi tentang konektor tersebut. Saat Anda siap melanjutkan, pilih Lanjutkan ke Berlangganan.

  8. Tinjau ketentuan penggunaan untuk perangkat lunak. Klik Terima Ketentuan.

  9. Ketika proses berlangganan selesai, Anda akan melihat pemberitahuan: “Terima kasih telah berlangganan produk ini! Anda sekarang dapat mengkonfigurasi perangkat lunak Anda.” Di atas spanduk akan ada tombol Lanjutkan ke Konfigurasi. Pilih Lanjutkan ke Konfigurasi.

  10. Pilih opsi Pemenuhan pada halaman Konfigurasikan perangkat lunak ini. Anda dapat memilih antara AWS Glue 1.0/2.0 atau AWS Glue 3.0. Kemudian, pilih Continue to Launch.

Langkah selanjutnya

Langkah 3: Aktifkan konektor AWS Glue Studio dan buat koneksi

Langkah 3: Aktifkan konektor AWS Glue Studio dan buat koneksi

Setelah Anda memilih Lanjutkan untuk Meluncurkan, Anda melihat halaman Luncurkan perangkat lunak ini di AWS Marketplace. Setelah Anda menggunakan tautan untuk mengaktifkan konektor AWS Glue Studio, Anda membuat koneksi.

Untuk menyebarkan konektor dan membuat koneksi di AWS Glue Studio
  1. Pada halaman Luncurkan perangkat lunak ini di AWS Marketplace konsol, pilih Petunjuk Penggunaan, lalu pilih tautan di jendela yang muncul.

    Browser Anda dialihkan ke AWS Glue Studio konsol Buat halaman koneksi marketplace.

  2. Masukkan nama untuk koneksi tersebut. Misalnya: my-es-connection.

  3. Di bagian Akses koneksi, untuk Jenis kredensial koneksi, pilih Nama pengguna dan kata sandi.

  4. Untuk Rahasia AWS , masukkan nama rahasia Anda. Misalnya: my-es-secret.

  5. Di bagian Opsi jaringan, masukkan VPC informasi untuk terhubung ke OpenSearch cluster.

  6. Pilih Buat koneksi dan aktifkan konektor.

Langkah selanjutnya

Langkah 4: Konfigurasikan IAM peran untuk ETL pekerjaan Anda

Langkah 4: Konfigurasikan IAM peran untuk ETL pekerjaan Anda

Saat Anda membuat AWS Glue ETL pekerjaan, Anda menentukan peran AWS Identity and Access Management (IAM) untuk pekerjaan yang akan digunakan. Peran harus memberikan akses ke semua sumber daya yang digunakan oleh pekerjaan, termasuk Amazon S3 (untuk sumber, target, skrip, file driver, dan direktori sementara), dan juga objek. AWS Glue Data Catalog

IAMPeran yang diasumsikan untuk AWS Glue ETL pekerjaan itu juga harus memiliki akses ke rahasia yang dibuat di bagian sebelumnya. Secara default, peran yang AWS dikelola AWSGlueServiceRole tidak memiliki akses ke rahasia. Untuk mengatur kendali akses ke rahasia Anda, lihat Autentikasi dan Kendali Akses AWS Secrets Manager dan Membatasi Akses ke Rahasia Tertentu.

Untuk mengonfigurasi IAM peran untuk ETL pekerjaan Anda
  1. Konfigurasikan izin sebagaimana yang dijelaskan di Meninjau IAM izin yang diperlukan untuk pekerjaan ETL.

  2. Konfigurasikan izin tambahan yang diperlukan saat menggunakan konektor dengan AWS Glue Studio, seperti yang dijelaskan dalamIzin diperlukan untuk menggunakan konektor.

Langkah selanjutnya

Langkah 5: Buat pekerjaan yang menggunakan OpenSearch koneksi

Langkah 5: Buat pekerjaan yang menggunakan OpenSearch koneksi

Setelah membuat peran untuk ETL pekerjaan Anda, Anda dapat membuat pekerjaan AWS Glue Studio yang menggunakan koneksi dan konektor untuk Open Spark ElasticSearch.

Jika pekerjaan Anda berjalan dalam Amazon Virtual Private Cloud (AmazonVPC), pastikan VPC sudah dikonfigurasi dengan benar. Untuk informasi selengkapnya, lihat Konfigurasikan VPC untuk pekerjaan ETL Anda.

Untuk membuat sebuah tugas yang menggunakan Elasticsearch Spark Connector
  1. Di AWS Glue Studio, pilih Konektor.

  2. Di daftar Koneksi Anda, pilih koneksi yang baru saja Anda buat dan pilih Buat tugas.

  3. Dalam editor tugas visual, pilih Simpul sumber data. Di sebelah kanan, di tab Properti sumber data - Konektor, konfigurasi informasi tambahan untuk konektor.

    1. Pilih Tambahkan skema dan masukkan skema set data dalam sumber data. Koneksi tidak menggunakan tabel yang disimpan dalam Katalog Data, yang AWS Glue Studio berarti tidak mengetahui skema data. Anda harus memberikan informasi skema ini secara manual. Untuk petunjuk tentang cara menggunakan editor skema, lihat Mengedit skema di simpul transformasi kustom.

    2. Perluas Opsi koneksi.

    3. Pilih Tambahkan opsi baru dan masukkan informasi yang diperlukan untuk konektor yang tidak dimasukkan dalam AWS rahasia:

      • es.nodes: https://< OpenSearch titik akhir domain>

      • es.port: 443

      • jalur: uji

      • es.nodes.wan.only: benar

      Untuk penjelasan tentang pilihan koneksi ini, lihat https://www.elastic.co/guide/en/elasticsearch/hadoop/current/configuration.html.

  4. Tambahkan simpul target ke grafik.

    Target data Anda bisa berupa Amazon S3, atau dapat menggunakan formulir informasi dari AWS Glue Data Catalog atau konektor untuk menulis data di lokasi yang berbeda. Misalnya, Anda dapat menggunakan tabel Katalog Data untuk menulis ke database di AmazonRDS, atau Anda dapat menggunakan konektor sebagai target data untuk menulis ke penyimpanan data yang tidak didukung secara AWS Glue asli.

    Jika Anda memilih sebuah konektor untuk target data Anda, maka Anda harus memilih sebuah koneksi yang dibuat untuk konektor tersebut. Selain itu, jika diperlukan oleh penyedia konektor, Anda harus menambahkan opsi untuk memberikan informasi tambahan ke konektor. Jika Anda menggunakan koneksi yang berisi informasi untuk AWS rahasia, maka Anda tidak perlu memberikan nama pengguna dan otentikasi kata sandi dalam opsi koneksi.

  5. Opsional, tambahkan sumber data tambahan dan satu atau beberapa simpul transformasi seperti yang dijelaskan di Transformasi data dengan transformasi AWS Glue terkelola.

  6. Konfigurasikan properti tugas seperti yang dijelaskan di Mengubah properti tugas, dimulai dengan langkah 3, dan simpan tugas.

Langkah selanjutnya

Langkah 6: Menjalankan tugas

Langkah 6: Menjalankan tugas

Setelah Anda menyimpan pekerjaan Anda, Anda dapat menjalankan pekerjaan untuk melakukan ETL operasi.

Untuk menjalankan pekerjaan yang Anda buat untuk AWS Glue Connector for Elasticsearch
  1. Menggunakan AWS Glue Studio konsol, pada halaman editor visual, pilih Jalankan.

  2. Dalam banner keberhasilan, pilih Detail Eksekusi, atau Anda dapat memilih tab Eksekusi di editor visual untuk melihat informasi tentang eksekusi tugas.