Menghubungkan ke data - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menghubungkan ke data

AWS Glue Koneksi adalah objek Katalog Data yang menyimpan kredensi login, URI string, informasi virtual private cloud (VPC), dan lainnya untuk penyimpanan data tertentu. AWS Glue crawler, pekerjaan, dan titik akhir pengembangan menggunakan koneksi untuk mengakses jenis penyimpanan data tertentu. Anda dapat menggunakan koneksi untuk sumber dan target, dan menggunakan kembali koneksi yang sama di beberapa crawler atau extract, transform, dan load (ETL) job.

Versi terbaru dari skema AWS Glue koneksi menyediakan cara terpadu untuk mengelola koneksi data di seluruh AWS layanan dan aplikasi, seperti AWS Glue Amazon Athena, dan Amazon SageMaker AI Unified Studio.

Gambaran umum menggunakan konektor dan koneksi

Sebuah koneksi berisi properti yang diperlukan untuk connect ke penyimpanan data tertentu. Ketika Anda membuat sebuah koneksi, ia disimpan dalam AWS Glue Data Catalog. Anda memilih sebuah konektor, dan kemudian membuat sebuah koneksi berdasarkan konektor tersebut.

Anda dapat berlangganan konektor untuk penyimpanan data yang tidak didukung secara asli AWS Marketplace, dan kemudian menggunakan konektor tersebut saat Anda membuat koneksi. Para developer juga dapat membuat konektor mereka sendiri, dan Anda dapat menggunakannya saat membuat koneksi.

catatan

Koneksi yang dibuat menggunakan kustom atau AWS Marketplace konektor AWS Glue Studio muncul di AWS Glue konsol dengan jenis yang disetel keUNKNOWN.

Langkah-langkah berikut menjelaskan keseluruhan proses penggunaan konektor di AWS Glue Studio:

  1. Berlangganan konektor di AWS Marketplace, atau kembangkan konektor Anda sendiri dan unggah ke AWS Glue Studio. Untuk informasi selengkapnya, lihat Menambahkan konektor ke AWS Glue Studio.

  2. Tinjau informasi penggunaan konektor. Anda dapat menemukan informasi ini di tab Penggunaan pada halaman produk konektor. Misalnya, jika Anda mengklik tab Penggunaan di halaman produk ini, AWS Glue Konektor untuk Google BigQuery, Anda dapat melihat di bagian Sumber Daya Tambahan tautan ke blog tentang penggunaan konektor ini.

  3. Buat sebuah koneksi. Anda memilih konektor mana yang akan digunakan dan memberikan informasi tambahan untuk koneksi, seperti kredensi login, URI string, dan informasi virtual private cloud ()VPC. Untuk informasi selengkapnya, lihat Membuat koneksi untuk konektor.

  4. Buat IAM peran untuk pekerjaan Anda. Pekerjaan mengasumsikan izin IAM peran yang Anda tentukan saat Anda membuatnya. IAMPeran ini harus memiliki izin yang diperlukan untuk mengautentikasi, mengekstrak data dari, dan menulis data ke penyimpanan data Anda.

  5. Buat ETL pekerjaan dan konfigurasikan properti sumber data untuk ETL pekerjaan Anda. Sediakan opsi koneksi dan informasi autentikasi seperti yang diperintahkan oleh penyedia konektor kustom. Untuk informasi selengkapnya, lihat Menulis tugas dengan konektor kustom.

  6. Sesuaikan ETL pekerjaan Anda dengan menambahkan transformasi atau penyimpanan data tambahan, seperti yang dijelaskan dalamMemulai ETL pekerjaan visual di AWS Glue Studio.

  7. Jika menggunakan konektor untuk target data, konfigurasikan properti target data untuk ETL pekerjaan Anda. Sediakan opsi koneksi dan informasi autentikasi seperti yang diperintahkan oleh penyedia konektor kustom. Untuk informasi selengkapnya, lihat Menulis tugas dengan konektor kustom.

  8. Sesuaikan lingkungan eksekusi tugas dengan mengkonfigurasi properti tugas, seperti yang dijelaskan dalam Mengubah properti tugas.

  9. Jalankan tugas.

Koneksi terpadu

Dengan koneksi Terpadu, Anda dapat mengonfigurasi koneksi data sekali, dan dapat digunakan kembali oleh berbagai layanan untuk kasus penggunaan dalam integrasi data, analitik data, dan ilmu data. Anda dapat membuat koneksi data melalui AWS Glue konsol, atau aplikasi yang dibuat khusus menggunakan konektivitas data terpadu. APIs Dengan koneksi terpadu, Anda dapat mengatur koneksi ke sumber data menggunakan templat konfigurasi koneksi yang distandarisasi untuk beberapa layanan. Layanan ini (AWS Glue, Amazon SageMaker AI Unified Studio dan Amazon Athena) dapat berbagi dan menggunakan kembali koneksi yang sama dengan konfigurasi izin yang tepat.

AWS Glue Studio sekarang membuat koneksi terpadu secara default. Di AWS Glue konsol, Anda dapat melihat versi koneksi di tabel koneksi pada halaman koneksi, pada halaman detail koneksi, dan tabel koneksi di halaman detail pekerjaan.

Versi koneksi terlihat pada detail Koneksi:

Screenshot menunjukkan detail koneksi pada koneksi v2.

Versi koneksi juga terlihat saat melihat semua Koneksi Anda.

Screenshot menunjukkan detail koneksi pada koneksi v2.

Terakhir, versi koneksi terlihat di tab Job details untuk suatu pekerjaan.

Screenshot menunjukkan detail koneksi pada koneksi v2.

Dengan koneksi versi 2, Anda memiliki kemampuan konektivitas data yang diperluas berikut:

  • Penemuan tipe koneksi: Dukungan untuk membuat koneksi menggunakan templat standar. AWS Glue secara otomatis menemukan jenis koneksi yang dapat diakses oleh Anda dan input yang diperlukan dan opsional untuk jenis koneksi tertentu.

  • Reusability: Definisi koneksi yang dapat digunakan kembali di seluruh mesin pemrosesan AWS data dan alat-alat seperti AWS Glue,, Amazon Athena dan. Amazon SageMaker AI Koneksi sekarang berisi AthenaProperties, SparkProperties, PythonProperties yang memungkinkan untuk menentukan properti koneksi khusus lingkungan/layanan komputasi selain properti umum yang disimpan di. ConnectionProperties Athena sekarang membuat Koneksi AWS Glue dengan menentukan properti khusus Athena di peta properti. AthenaProperties

  • Pratinjau data: Kemampuan untuk menelusuri metadata dan mempratinjau data dari sumber yang terhubung.

  • Metadata konektor: Koneksi yang dapat digunakan kembali dapat digunakan untuk menemukan metadata tabel.

  • Rahasia terkait layanan: Pengguna dapat memberikan kredensi otentikasi yang diperlukanOAuth, dasar atau kustom dalam permintaan. CreateConnection CreateConnection APIIni membuat Rahasia Tertaut Layanan di akun Anda dan menyimpan kredensialnya atas nama Anda.

Pertimbangan

Saat Anda membuat sambungan terpadu untuk sumber data, pertimbangkan perbedaan berikut:

  • Saat membuat koneksi terpadu melalui AWS Glue Studio, kredensil pengguna disimpan di AWS Secrets Manager alih-alih koneksi itu sendiri. Ini berarti pekerjaan sekarang membutuhkan akses ke Secrets Manager.

  • Jika pekerjaan berjalan di aVPC, mereka memerlukan VPC titik akhir atau NAT gateway untuk mengakses AWS Secrets Manager dan Secure Token Service (STS), yang menimbulkan biaya tambahan.

  • Untuk sumber data tertentu (Redshift, SQL Server, My, OracleSQL, PostgreSQL), membuat koneksi terpadu melalui memerlukan akses ke dan. AWS Glue Studio AWS STS AWS Secrets Manager Ini diperlukan untuk membuat koneksi yang aman dan mengambil kredensi yang diperlukan untuk mengakses sumber data ini dalam Virtual Private Cloud () Anda. VPC

  • Membuat koneksi terpadu melalui AWS Glue Studio memerlukan IAM peran dengan izin untuk mengakses AWS Secrets Manager dan mengelola VPC sumber daya (jika menggunakan aVPC):

    • manajer rahasia: GetSecretValue

    • manajer rahasia: PutSecretValue

    • manajer rahasia: DescribeSecret

    • EC2: CreateNetworkInterface

    • EC2: DeleteNetworkInterface

    • EC2: DescribeNetworkInterfaces