Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Menggunakan kueri SQL untuk mengubah data
Anda dapat menggunakan transformasi SQL untuk menulis transformasi Anda sendiri dalam bentuk kueri SQL.
Sebuah simpul transformasi SQL dapat memiliki beberapa set data sebagai input, tetapi hanya menghasilkan set data tunggal sebagai output. Ia berisi bidang teks, di mana Anda memasukkan kueri Apache SparkSQL. Anda dapat menetapkan alias untuk setiap set data yang digunakan sebagai masukan, untuk membantu hanya kueri SQL. Untuk informasi lebih lanjut tentang sintaksis SQL, lihat dokumentasi Spark SQL
catatan
Jika Anda menggunakan transformasi Spark SQL dengan sumber data yang terletak di VPC, tambahkan AWS Glue Titik akhir VPC ke VPC yang berisi sumber data. Untuk informasi selengkapnya tentang konfigurasi titik akhir pengembangan, lihat Menambah Titik Akhir Pengembangan, Menyiapkan Lingkungan Anda untuk Titik Akhir Pengembangan, dan Mengakses Titik Akhir Pengembangan Anda dalam Panduan Developer AWS Glue .
Untuk menggunakan simpul transformasi SQL ke diagram tugas Anda
-
(Opsional) Tambahkan simpul transformasi ke diagram tugas, jika diperlukan. Pilih SQL Query untuk jenis node.
catatan
Jika Anda menggunakan sesi pratinjau data dan SQL kustom atau node kode kustom, sesi pratinjau data akan mengeksekusi SQL atau blok kode apa adanya untuk seluruh kumpulan data.
-
Pada tab Properti simpul, masukkan nama untuk simpul dalam diagram tugas. Jika sebuah simpul induk belum dipilih, atau jika Anda ingin beberapa masukan untuk transformasi SQL, pilih sebuah simpul dari Induk simpul yang akan digunakan sebagai sumber masukan untuk transformasi. Tambahkan simpul induk tambahan sesuai kebutuhan.
-
Pilih tab Transformasi di panel detail simpul.
-
Set data sumber untuk kueri SQL diidentifikasi berdasarkan nama yang Anda tentukan dalam bidang Nama untuk setiap simpul. Jika Anda tidak ingin menggunakan nama-nama ini, atau jika nama-nama tidak cocok untuk kueri SQL, maka Anda dapat mengaitkan nama untuk setiap set data. Konsol tersebut menyediakan alias default, seperti
MyDataSource
.Sebagai contoh, jika induk simpul untuk simpul transformasi SQL bernama
Rename Org PK field
, Anda dapat mengaitkan namaorg_table
dengan set data ini. Alias ini kemudian dapat digunakan dalam kueri SQL sebagai ganti nama simpul. -
Dalam bidang entri teks pada judul Blok kode, tempel atau masukkan kueri SQL. Bidang teks menampilkan penyorotan sintaksis SQL dan saran kata kunci.
-
Dengan simpul transformasi SQL yang sudah dipilih, pilih tab Skema output, dan kemudian pilih Edit. Berikan kolom dan tipe data yang menggambarkan bidang output kueri SQL.
Tentukan skema menggunakan tindakan berikut di bagian Skema output pada halaman tersebut:
-
Untuk mengubah nama kolom, tempatkan kursor di kotak teks Kunci untuk kolom (juga disebut sebagai bidang atau kunci properti) dan masukkan nama baru.
-
Untuk mengubah tipe data untuk kolom, pilih tipe data baru untuk kolom tersebut dari daftar drop-down.
-
Untuk menambahkan kolom tingkat atas baru pada skema, pilih tombol Overflow (
), dan kemudian pilih Tambah kunci akar. Kolom baru ditambahkan di bagian atas skema.
-
Untuk menghapus kolom dari skema, pilih ikon hapus (
) di ujung kanan nama kunci.
-
-
Setelah Anda selesai menentukan skema output, pilih Terapkan untuk menyimpan perubahan dan keluar dari editor skema. Jika Anda tidak ingin menyimpan perubahan, pilih Batalkan untuk mengedit editor skema.
(Opsional) Setelah mengkonfigurasi properti simpul dan properti transformasi, Anda dapat melihat pratinjau set data yang diubah dengan memilih tab Pratinjau data di panel detail simpul. Pertama kali Anda memilih tab ini untuk setiap simpul dalam tugas Anda, Anda akan diminta untuk memberikan IAM role untuk mengakses data. Ada biaya yang terkait dengan penggunaan fitur ini, dan penagihan akan dimulai langsung setelah Anda memberikan IAM role.