Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Transformasi data dengan transformasi AWS Glue terkelola
AWS Glue Studiomenyediakan dua jenis transformasi:
-
AWS Glue-native transforms - tersedia untuk semua pengguna dan dikelola oleh. AWS Glue
-
Transformasi visual khusus - memungkinkan Anda mengunggah transformasi Anda sendiri untuk digunakan AWS Glue Studio
AWS Gluenode transformasi data terkelola
AWS Glue Studio menyediakan serangkaian transformasi bawaan yang dapat Anda gunakan untuk memproses data Anda. Data Anda berpindah dari satu node dalam diagram pekerjaan ke yang lain dalam struktur data yang disebut aDynamicFrame
, yang merupakan ekstensi ke Apache Spark SQLDataFrame
.
Dalam diagram pra-populasi untuk suatu pekerjaan, antara sumber data dan node target data adalah simpul transformasi Change Schema. Anda dapat mengkonfigurasi simpul transformasi ini untuk memodifikasi data Anda, atau Anda dapat menggunakan transformasi tambahan.
Transformasi bawaan berikut tersedia denganAWS Glue Studio:
-
ChangeSchema: Petakan kunci properti data di sumber data ke kunci properti data di target data. Anda dapat mengganti nama kunci, memodifikasi tipe data untuk kunci, dan memilih kunci mana yang akan dibuang dari set data.
-
SelectFields: Pilih kunci properti data yang ingin Anda simpan.
-
DropFields: Pilih kunci properti data yang ingin Anda jatuhkan.
-
RenameField: Ganti nama kunci properti data tunggal.
-
Spigot: Menulis sampel data ke sebuah bucket Amazon S3.
-
Join: Menggabungkan dua set data menjadi satu set data menggunakan frasa perbandingan pada kunci properti data tertentu. Anda dapat menggunakan join bagian dalam, luar, kiri, kanan, kiri semi, dan lawan kiri.
-
Union: Gabungkan baris dari lebih dari satu sumber data yang memiliki skema yang sama.
-
SplitFields: Pisahkan kunci properti data menjadi dua
DynamicFrames
. Output adalah sebuah kumpulanDynamicFrames
: satu dengan kunci properti data yang dipilih, dan satu dengan kunci properti data yang tersisa. -
SelectFromCollection: Pilih salah satu
DynamicFrame
dari koleksiDynamicFrames
. Outputnya adalahDynamicFrame
yang dipilih. -
FillMissingValues: Temukan catatan dalam kumpulan data yang memiliki nilai yang hilang dan tambahkan bidang baru dengan nilai yang disarankan yang ditentukan oleh imputasi
-
Filter: Membagi set data menjadi dua, berdasarkan syarat filter.
-
Jatuhkan Bidang Null: Menghapus kolom dari kumpulan data jika semua nilai di kolom 'null'.
-
Jatuhkan Duplikat: Menghapus baris dari sumber data Anda dengan memilih untuk mencocokkan seluruh baris atau menentukan kunci.
-
SQL: Masukkan SQL kode Spark ke dalam bidang entri teks untuk menggunakan SQL kueri untuk mengubah data. Outputnya adalah satu
DynamicFrame
. -
Agregat: Melakukan perhitungan (seperti rata-rata, jumlah, min, maks) pada bidang dan baris yang dipilih, dan membuat bidang baru dengan nilai yang baru dihitung.
-
Flatten: Ekstrak bidang di dalam struct ke bidang tingkat atas.
-
UUID: Tambahkan kolom dengan Universally Unique Identifier untuk setiap baris.
-
Identifier: Tambahkan kolom dengan pengidentifikasi numerik untuk setiap baris.
-
Ke stempel waktu: Ubah kolom menjadi tipe stempel waktu.
-
Format timestamp: Konversi kolom stempel waktu ke string yang diformat.
-
Transformasi Router Bersyarat: Terapkan beberapa kondisi ke data yang masuk. Setiap baris data yang masuk dievaluasi oleh kondisi filter grup dan diproses menjadi grup yang sesuai.
-
Transformasi Kolom Gabungan: Bangun kolom string baru menggunakan nilai kolom lain dengan spacer opsional.
-
Transformasi String Split: Memecah string menjadi array token menggunakan ekspresi reguler untuk menentukan bagaimana pemisahan dilakukan.
-
Array To Columns transform: Ekstrak beberapa atau semua elemen kolom tipe array ke kolom baru.
-
Tambahkan transformasi Timestamp Saat Ini: Tandai baris dengan waktu pemrosesan data. Ini berguna untuk tujuan audit atau untuk melacak latensi dalam pipa data.
-
Pivot Rows to Columns transform: Agregat kolom numerik dengan memutar nilai unik pada kolom terpilih yang menjadi kolom baru. Jika beberapa kolom dipilih, nilainya digabungkan untuk memberi nama kolom baru.
-
Unpivot Columns To Rows transform: Ubah kolom menjadi nilai kolom baru yang menghasilkan baris untuk setiap nilai unik.
-
Transformasi Pemrosesan Autobalance: Mendistribusikan kembali data dengan lebih baik di antara para pekerja. Ini berguna jika data tidak seimbang atau karena berasal dari sumber tidak memungkinkan pemrosesan paralel yang cukup di atasnya.
-
Transformasi Kolom Derived: Tentukan kolom baru berdasarkan rumus matematika atau SQL ekspresi di mana Anda dapat menggunakan kolom lain dalam data, serta konstanta dan literal.
-
Transformasi pencarian: Tambahkan kolom dari tabel katalog yang ditentukan saat kunci cocok dengan kolom pencarian yang ditentukan dalam data.
-
Explode Array atau Map Into Rows transform: Ekstrak nilai dari struktur bersarang menjadi baris individual yang lebih mudah dimanipulasi.
-
Transformasi pencocokan rekaman: Memanggil transformasi klasifikasi data pembelajaran mesin Record Matching yang ada.
-
Hapus baris null transform: Hapus dari baris dataset yang memiliki semua kolom sebagai null, atau kosong.
-
Parse JSON column transform: Parse kolom string yang berisi JSON data dan mengubahnya menjadi struct atau kolom array, tergantung apakah objek atau array, masing-masing. JSON
-
Ekstrak JSON jalur transformasi: Ekstrak kolom baru dari kolom JSON string.
-
Ekstrak fragmen string dari ekspresi reguler: Ekstrak fragmen string menggunakan ekspresi reguler dan buat kolom baru darinya, atau beberapa kolom jika menggunakan grup regex.
-
Transformasi kustom: Masukkan kode ke bidang entri teks untuk menggunakan transformasi kustom. Outputnya adalah kumpulan
DynamicFrames
.