Pilih preferensi cookie Anda

Kami menggunakan cookie penting serta alat serupa yang diperlukan untuk menyediakan situs dan layanan. Kami menggunakan cookie performa untuk mengumpulkan statistik anonim sehingga kami dapat memahami cara pelanggan menggunakan situs dan melakukan perbaikan. Cookie penting tidak dapat dinonaktifkan, tetapi Anda dapat mengklik “Kustom” atau “Tolak” untuk menolak cookie performa.

Jika Anda setuju, AWS dan pihak ketiga yang disetujui juga akan menggunakan cookie untuk menyediakan fitur situs yang berguna, mengingat preferensi Anda, dan menampilkan konten yang relevan, termasuk iklan yang relevan. Untuk menerima atau menolak semua cookie yang tidak penting, klik “Terima” atau “Tolak”. Untuk membuat pilihan yang lebih detail, klik “Kustomisasi”.

AWS Glue versi

Mode fokus
AWS Glue versi - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Anda dapat mengonfigurasi parameter AWS Glue versi saat menambahkan atau memperbarui pekerjaan. AWS Glue Versi ini menentukan versi Apache Spark dan Python yang mendukung. AWS Glue Versi Python menunjukkan versi yang didukung untuk pekerjaan jenis Spark. Tabel berikut mencantumkan versi AWS Glue yang tersedia, versi Spark dan Python yang sesuai, dan perubahan fungsi lainnya.

AWS Glue versi

AWS Glue versi Versi lingkungan runtime yang didukung Versi Java yang didukung Perubahan fungsionalitas
AWS Glue 5.0
  • Spark 3.5.2

  • Python 3.11

  • Scala 2.12.18

Jawa 17

Selain pembaruan kerangka kerja, ada pengoptimalan dan peningkatan yang dibangun ke dalam AWS Glue rilis ini, seperti:

  • Dukungan Amazon SageMaker Unified Studio

  • Dukungan Amazon SageMaker Lakehouse

  • Format Tabel Terbuka (OTF) diperbarui ke Hudi 0.15.0, Iceberg 1.6.1, dan Delta Lake 3.2.1

  • Kontrol akses berbutir halus asli percikan menggunakan Lake Formation.

  • Dukungan Hibah Akses Amazon S3

  • requirements.txtdukungan untuk menginstal pustaka Python tambahan

  • Dukungan garis keturunan data di Amazon DataZone

Batasan

Berikut ini adalah batasan dengan AWS Glue 5.0:

  • Glue Dynamic Frame GlueContext /based table-level control dengan AWS Lake Formation izin yang didukung di Glue 4.0 atau sebelumnya tidak didukung di Glue 5.0. Gunakan Spark native fine-grained access control (FGAC) baru di Glue 5.0.

Untuk informasi selengkapnya tentang migrasi ke AWS Glue versi 5.0, lihatMigrasi AWS Glue untuk pekerjaan Spark ke versi 5.0 AWS Glue.

AWS Glue 4.0 Versi lingkungan percikan
  • Spark 3.3.0

  • Python 3.10

Java 8

AWS Glue 4.0 memiliki sejumlah pengoptimalan dan peningkatan yang dibangun ke dalam AWS Glue rilis ini, seperti:

  • Banyak peningkatan fungsionalitas Spark dari Spark 3.1 ke Spark 3.3:

    • Beberapa peningkatan fungsionalitas saat dipasangkan dengan Panda. Untuk informasi selengkapnya, lihat Apa yang Baru di Spark 3.3.

    • Pengoptimalan tambahan dikembangkan di Amazon EMR.

    • Tingkatkan ke Sistem File EMR (EMRFS) 2.53.

  • Migrasi Log4j 2 dari Log4j 1.x

  • Beberapa pembaruan modul Python dari AWS Glue 3.0, seperti versi upgrade dari Boto.

  • Upgrade beberapa konektor, termasuk konektor Amazon Redshift default. Lihat Lampiran C: Peningkatan konektor.

  • Upgrade beberapa driver JDBC. Lihat Lampiran B: Peningkatan driver JDBC.

  • Diperbarui dengan konektor Amazon Redshift baru dan driver JDBC.

  • Dukungan asli untuk kerangka kerja danau data terbuka dengan Apache Hudi, Delta Lake, dan Apache Iceberg.

  • Dukungan asli untuk Plugin Penyimpanan Cloud Shuffle berbasis Amazon S3 (plugin Apache Spark) untuk menggunakan Amazon S3 untuk pengocokan dan kapasitas penyimpanan elastis.

Batasan

Berikut ini adalah batasan dengan AWS Glue 4.0:

  • AWS Glue pembelajaran mesin dan transformasi informasi identifikasi pribadi (PII) belum tersedia di 4.0. AWS Glue

Untuk informasi selengkapnya tentang migrasi ke AWS Glue versi 4.0, lihatMigrasi AWS Glue untuk pekerjaan Spark ke versi 4.0 AWS Glue.

Versi lingkungan Ray
  • Sinar 2.4.0

    Python 3.9

N/A

Membangun dan menjalankan aplikasi Python terdistribusi dengan AWS Glue untuk Ray.

  • Mendukung distribusi data Ray-2.4.0 () ray[data] dengan Python 3.9. Untuk informasi lebih lanjut tentang rilis Ray ini, lihat Ray-2.4.0 di repositori Ray. GitHub

  • Mendukung pemasangan pustaka Python tambahan ke lingkungan runtime. Ray2.4 Untuk informasi selengkapnya, lihat Modul Python tambahan untuk pekerjaan Ray.

  • Mengintegrasikan log dan metrik dari pekerjaan Ray dengan Amazon. CloudWatch Untuk informasi selengkapnya, silakan lihat Pemecahan masalah AWS Glue untuk kesalahan Ray dari log dan Memantau pekerjaan Ray dengan metrik.

  • Mengagregat dan memvisualisasikan metrik untuk pekerjaan Ray di AWS Glue Studio, di setiap halaman menjalankan pekerjaan.

  • Mendukung distribusi file ke setiap direktori kerja di seluruh cluster Anda, menumpahkan objek dari penyimpanan objek Ray ke Amazon S3, dan mengontrol jumlah minimum node pekerja yang dialokasikan untuk pekerjaan Ray Anda. Untuk informasi selengkapnya, lihat Menggunakan parameter pekerjaan di pekerjaan Ray.

Keterbatasan pada pekerjaan Ray di AWS Glue 4.0

  • AWS Glue sesi interaktif untuk Ray tetap dalam pratinjau untuk rilis ini.

  • AWS Glue untuk integrasi Ray dengan Amazon VPC saat ini tidak tersedia. Sumber daya dalam VPC tidak AWS akan dapat diakses tanpa rute umum. Untuk informasi selengkapnya tentang penggunaan AWS Glue dengan Amazon VPC, lihat. Mengkonfigurasi titik akhir AWS PrivateLink VPC antarmuka () untuk AWS Glue (AWS PrivateLink)

  • AWS Glue untuk Ray tersedia di AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (Oregon), Asia Pasifik (Tokyo), dan Eropa (Irlandia).

AWS Glue 3.0
  • Spark 3.1.1

  • Python 3.7

Java 8

Selain upgrade mesin Spark ke 3.0, ada pengoptimalan dan peningkatan yang dibangun ke dalam AWS Glue rilis ini, seperti:

  • Membangun Perpustakaan AWS Glue ETL terhadap Spark 3.0, yang merupakan rilis utama untuk Spark.

  • Pekerjaan streaming didukung pada AWS Glue 3.0.

  • Termasuk optimasi runtime AWS Glue Spark baru untuk kinerja dan keandalan:

    • Pemrosesan kolumnar dalam memori yang lebih cepat berdasarkan Apache Arrow untuk membaca data CSV.

    • Eksekusi berbasis SIM untuk pembacaan vektor dengan data CSV.

    • Peningkatan Spark juga mencakup pengoptimalan tambahan yang dikembangkan di Amazon EMR.

    • EMRFS yang ditingkatkan dari 2,38 menjadi 2,46 memungkinkan fitur baru dan perbaikan bug untuk akses Amazon S3.

  • Memutakhirkan beberapa dependensi yang diperlukan untuk versi Spark baru.

  • Driver JDBC yang ditingkatkan untuk sumber data kami yang didukung secara native.

Batasan

Berikut ini adalah batasan dengan AWS Glue 3.0:

  • AWS Glue Transformasi pembelajaran mesin belum tersedia di AWS Glue 3.0.

  • Beberapa konektor Spark khusus tidak berfungsi dengan AWS Glue 3.0 jika bergantung pada Spark 2.4 dan tidak memiliki kompatibilitas dengan Spark 3.1.

AWS Glue 2.0 (usang, akhir dukungan)
  • Spark versi 2.4.3

  • Python 3.7

N/A

Selain fitur yang disediakan dalam AWS Glue versi 1.0, AWS Glue versi 2.0 juga menyediakan:

  • Infrastruktur yang ditingkatkan untuk menjalankan pekerjaan Apache Spark ETL AWS Glue dengan waktu startup yang berkurang.

  • Pencatatan default sekarang real time, dengan aliran terpisah untuk driver dan pelaksana, serta output dan kesalahan.

  • Support untuk menentukan modul Python tambahan atau versi yang berbeda pada tingkat tugas.

catatan

AWS Glue versi 2.0 berbeda dari AWS Glue versi 1.0 untuk beberapa dependensi dan versi karena perubahan arsitektur yang mendasarinya. Validasi AWS Glue pekerjaan Anda sebelum bermigrasi di seluruh rilis AWS Glue versi utama.

AWS Glue 1.0 (usang, akhir dukungan)
  • Spark versi 2.4.3

  • Python 2.7

  • Python 3.6

N/A

Anda dapat menyimpan bookmark tugas untuk format Parket dan ORC di tugas ETL AWS Glue (menggunakan AWS Glue versi 1.0). Sebelumnya, Anda hanya dapat menandai format sumber Amazon S3 umum seperti JSON, CSV, Apache Avro, dan XMLdalam pekerjaan ETL. AWS Glue

Saat mengatur opsi format untuk input dan output ETL, Anda dapat menentukan untuk menggunakan format pembaca/penulis Apache Avro 1.8 untuk mendukung pembacaan dan penulisan tipe logis Avro (menggunakan versi 1.0). AWS Glue Sebelumnya, hanya Avro pembaca/penulis format versi 1.7 yang didukung.

Jenis koneksi DynamoDB mendukung opsi penulis ( AWS Glue menggunakan versi 1.0).

Batasan

Berikut ini adalah batasan dengan AWS Glue 1.0:

  • AWS Glue versi 0.9 dan 1.0 tidak tersedia di Asia Pasifik (Jakarta) (ap-southeast-3), Timur Tengah (UEA) (me-central-1), atau Wilayah baru lainnya di masa mendatang.

AWS Glue 0.9 (usang, akhir dukungan)
  • Spark versi 2.2.1

  • Python 2.7

N/A

Pekerjaan yang dibuat tanpa menentukan AWS Glue versi default ke AWS Glue 0.9.

Batasan

Berikut ini adalah batasan dengan AWS Glue 0,9:

  • AWS Glue versi 0.9 dan 1.0 tidak tersedia di Asia Pasifik (Jakarta) (ap-southeast-3), Timur Tengah (UEA) (me-central-1), atau Wilayah baru lainnya di masa mendatang.

catatan

Versi Glue berikut mendukung versi ini dari PythonShell:

  • PythonShell v3.6 didukung dalam Glue versi 1.0.

  • PythonShell v3.9 didukung di Glue versi 3.0.

Selain itu, titik akhir dev hanya didukung di Glue versi 1.0, dan 0.9.

Di halaman ini

PrivasiSyarat situsPreferensi cookie
© 2025, Amazon Web Services, Inc. atau afiliasinya. Semua hak dilindungi undang-undang.