Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Opsi format data untuk input dan output untuk Spark AWS Glue
Halaman ini menawarkan informasi tentang dukungan fitur dan parameter konfigurasi untuk format data yang didukung oleh AWS Glue for Spark. Lihat berikut ini untuk deskripsi penggunaan dan penerapan informasi ini.
Dukungan fitur di seluruh format data di AWS Glue
Setiap format data dapat mendukung fitur AWS Glue yang berbeda. Fitur umum berikut mungkin atau mungkin tidak didukung berdasarkan jenis format Anda. Lihat dokumentasi untuk format data Anda untuk memahami cara memanfaatkan fitur kami untuk memenuhi kebutuhan Anda.
Baca | AWSGlue dapat mengenali dan menafsirkan format data ini tanpa sumber daya tambahan, seperti konektor. |
Tulis | AWSGlue dapat menulis data dalam format ini tanpa sumber daya tambahan. Anda dapat menyertakan pustaka pihak ketiga dalam pekerjaan Anda dan menggunakan fungsi Apache Spark standar untuk menulis data, seperti yang Anda lakukan di lingkungan Spark lainnya. Untuk informasi selengkapnya tentang menyertakan pustaka, lihatMenggunakan pustaka Python dengan AWS Glue. |
Streaming dibaca | AWSGlue dapat mengenali dan menafsirkan format data ini dari Apache Kafka, Amazon Managed Streaming for Apache Kafka atau aliran pesan Amazon Kinesis. Kami mengharapkan aliran untuk menyajikan data dalam format yang konsisten, sehingga mereka dibaca sebagaiDataFrames . |
Kelompokkan file kecil | AWSGlue dapat mengelompokkan file bersama-sama untuk pekerjaan batch yang dikirim ke setiap node saat melakukan transformasi AWS Glue. Ini secara signifikan dapat meningkatkan kinerja untuk beban kerja yang melibatkan sejumlah besar file kecil. Untuk informasi selengkapnya, lihat Membaca file input dalam kelompok yang lebih besar. |
Bookmark tugas | AWSGlue dapat melacak kemajuan transformasi yang melakukan pekerjaan yang sama pada kumpulan data yang sama di seluruh pekerjaan yang dijalankan dengan bookmark pekerjaan. Ini dapat meningkatkan kinerja untuk beban kerja yang melibatkan kumpulan data di mana pekerjaan hanya perlu dilakukan pada data baru sejak pekerjaan terakhir dijalankan. Untuk informasi selengkapnya, lihat Melacak data yang diproses menggunakan bookmark pekerjaan. |
Parameter yang digunakan untuk berinteraksi dengan format data di AWS Glue
Jenis koneksi AWS Glue tertentu mendukung beberapa format
jenis, mengharuskan Anda menentukan informasi tentang format data Anda dengan format_options
objek saat menggunakan metode sepertiGlueContext.write_dynamic_frame.from_options
.
-
s3
— Untuk informasi selengkapnya, lihat Jenis dan opsi koneksi untuk ETL di AWS Glue:Parameter koneksi S3. Anda juga dapat melihat dokumentasi untuk metode yang memfasilitasi jenis koneksi ini: create_dynamic_frame_from_options dan dengan Python dan write_dynamic_frame_from_options metode Format def getSourceWith Scala yang sesuai dan. Format def getSinkWith -
kinesis
— Untuk informasi selengkapnya, lihat Jenis dan opsi koneksi untuk ETL di AWS Glue:Parameter koneksi Kinesis. Anda juga dapat melihat dokumentasi untuk metode yang memfasilitasi jenis koneksi ini: create_data_frame_from_options dan metode Scala yang sesuai. def createDataFrame FromOptions -
kafka
— Untuk informasi selengkapnya, lihat Jenis dan opsi koneksi untuk ETL di AWS Glue:Parameter koneksi Kafka. Anda juga dapat melihat dokumentasi untuk metode yang memfasilitasi jenis koneksi ini: create_data_frame_from_options dan metode Scala yang sesuai. def createDataFrame FromOptions
Beberapa jenis koneksi tidak memerlukanformat_options
. Misalnya, dalam penggunaan normal, koneksi JDBC ke database relasional mengambil data dalam format data tabular yang konsisten. Oleh karena itu, membaca dari koneksi JDBC tidak memerlukan. format_options
Beberapa metode untuk membaca dan menulis data dalam lem tidak diperlukanformat_options
. Misalnya, menggunakan GlueContext.create_dynamic_frame.from_catalog
dengan AWS Glue crawler. Crawler menentukan bentuk data Anda. Saat menggunakan crawler, pengklasifikasi AWS Glue akan memeriksa data Anda untuk membuat keputusan cerdas tentang cara merepresentasikan format data Anda. Kemudian akan menyimpan representasi data Anda di AWS Glue Data Catalog, yang dapat digunakan dalam skrip AWS Glue ETL untuk mengambil data Anda dengan metode tersebutGlueContext.create_dynamic_frame.from_catalog
. Crawler menghapus kebutuhan untuk menentukan informasi secara manual tentang format data Anda.
Untuk pekerjaan yang mengakses tabel yang AWS Lake Formation diatur, AWS Glue mendukung membaca dan menulis semua format yang didukung oleh tabel yang diatur Lake Formation. Untuk daftar format yang didukung saat ini untuk tabel yang AWS Lake Formation diatur, lihat Catatan dan Pembatasan untuk Tabel yang Diatur dalam Panduan AWS Lake FormationPengembang.
catatan
Untuk menulis Apache Parquet, AWS Glue ETL hanya mendukung penulisan ke tabel yang diatur dengan menentukan opsi untuk jenis penulis Parket kustom yang dioptimalkan untuk Dynamic Frames. Saat menulis ke tabel yang diatur dengan parquet
format, Anda harus menambahkan kunci useGlueParquetWriter
dengan nilai true
dalam parameter tabel.
Topik
- Menggunakan format CSV di AWS Glue
- Menggunakan format Parket di AWS Glue
- Menggunakan format XHTML di AWS Glue
- Menggunakan format Avro di AWS Glue
- Menggunakan format GrokLog di Glue AWS
- Menggunakan format Ion di AWS Glue
- Menggunakan format JSON di AWS Glue
- Menggunakan format ORC di AWS Glue
- Menggunakan kerangka kerja data lake dengan pekerjaan AWS Glue ETL
- Referensi konfigurasi bersama
Referensi konfigurasi bersama
Anda dapat menggunakan format_options
nilai berikut dengan jenis format apa pun.
-
attachFilename
— Sebuah string dalam format yang sesuai untuk digunakan sebagai nama kolom. Jika Anda memberikan opsi ini, nama file sumber untuk catatan akan ditambahkan ke catatan. Nilai parameter akan digunakan sebagai nama kolom. -
attachTimestamp
— Sebuah string dalam format yang sesuai untuk digunakan sebagai nama kolom. Jika Anda memberikan opsi ini, waktu modifikasi file sumber untuk catatan akan ditambahkan ke catatan. Nilai parameter akan digunakan sebagai nama kolom.