AWS Glue untuk Spark dan AWS Glue untuk Ray

AWS Glue Di Apache Spark (AWS Glue ETL), Anda dapat menggunakan untuk PySpark menulis kode Python untuk menangani data dalam skala besar. Spark adalah solusi yang akrab untuk masalah ini, tetapi insinyur data dengan latar belakang yang berfokus pada Python dapat menemukan transisi yang tidak intuitif. DataFrame Model Spark tidak mulus “Pythonic”, yang mencerminkan bahasa Scala dan runtime Java yang dibangun di atasnya.

Di AWS Glue, Anda dapat menggunakan pekerjaan shell Python untuk menjalankan integrasi data Python asli. Pekerjaan ini berjalan pada satu EC2 instans Amazon dan dibatasi oleh kapasitas instance itu. Ini membatasi throughput data yang dapat Anda proses, dan menjadi mahal untuk dipertahankan ketika berhadapan dengan big data.

AWS Glue untuk Ray memungkinkan Anda untuk meningkatkan beban kerja Python tanpa investasi besar untuk mempelajari Spark. Anda dapat memanfaatkan skenario tertentu di mana Ray berkinerja lebih baik. Dengan menawarkan pilihan, Anda dapat menggunakan kekuatan Spark dan Ray.

AWS Glue ETL dan AWS Glue untuk Ray berbeda di bawahnya, sehingga mereka mendukung fitur yang berbeda. Silakan periksa dokumentasi untuk menentukan fitur yang didukung.

Apa AWS Glue untuk Ray?

Ray adalah kerangka kerja komputasi terdistribusi open-source yang dapat Anda gunakan untuk meningkatkan beban kerja, dengan fokus pada Python. Untuk informasi lebih lanjut tentang Ray, lihat situs web Ray. AWS Glue Pekerjaan Ray dan sesi interaktif memungkinkan Anda menggunakan Ray di dalamnya AWS Glue.

Anda dapat menggunakan Ray AWS Glue untuk menulis skrip Python untuk perhitungan yang akan berjalan secara paralel di beberapa mesin. Dalam pekerjaan Ray dan sesi interaktif, Anda dapat menggunakan pustaka Python yang sudah dikenal, seperti panda, untuk membuat alur kerja Anda mudah ditulis dan dijalankan. Untuk informasi selengkapnya tentang kumpulan data Ray, lihat Kumpulan Data Ray dalam dokumentasi Ray. Untuk informasi lebih lanjut tentang panda, lihat situs web Panda.

Ketika Anda menggunakan AWS Glue untuk Ray, Anda dapat menjalankan alur kerja panda Anda terhadap data besar pada skala perusahaan—dengan hanya beberapa baris kode. Anda dapat membuat pekerjaan Ray dari AWS Glue konsol atau AWS SDK. Anda juga dapat membuka sesi AWS Glue interaktif untuk menjalankan kode Anda di lingkungan Ray tanpa server. Pekerjaan visual AWS Glue Studio di belum didukung.

AWS Glue untuk pekerjaan Ray memungkinkan Anda menjalankan skrip sesuai jadwal atau sebagai tanggapan atas acara dari Amazon EventBridge. Pekerjaan menyimpan informasi log dan statistik pemantauan CloudWatch yang memungkinkan Anda memahami kesehatan dan keandalan skrip Anda. Untuk informasi lebih lanjut tentang sistem AWS Glue pekerjaan, lihatBekerja dengan pekerjaan Ray di AWS Glue.

Ray mengotomatiskan pekerjaan penskalaan kode Python dengan mendistribusikan pemrosesan di sekelompok mesin yang dikonfigurasi ulang secara real time, berdasarkan beban. Hal ini dapat menyebabkan peningkatan kinerja per dolar untuk beban kerja tertentu. Dengan pekerjaan Ray, kami telah membuat penskalaan otomatis secara native ke dalam model AWS Glue pekerjaan, sehingga Anda dapat sepenuhnya memanfaatkan fitur ini. Pekerjaan Ray berjalan di AWS Graviton, yang mengarah ke kinerja harga keseluruhan yang lebih tinggi.

Selain penghematan biaya, Anda dapat menggunakan penskalaan otomatis asli untuk menjalankan beban kerja Ray tanpa menginvestasikan waktu ke pemeliharaan, penyetelan, dan administrasi klaster. Anda dapat menggunakan pustaka sumber terbuka yang sudah dikenal di luar kotak, seperti panda, dan AWS SDK untuk Pandas. Ini meningkatkan kecepatan iterasi saat Anda mengembangkan AWS Glue untuk Ray. Ketika Anda menggunakan AWS Glue untuk Ray, Anda akan dapat dengan cepat mengembangkan dan menjalankan beban kerja integrasi data yang hemat biaya.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Komponen-komponen

Mengubah skema semi-terstruktur menjadi skema relasional