Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
spesifik aplikasi Pig untuk versi AMI sebelumnya dari Amazon EMR
Versi Pig yang Didukung
Versi Pig Anda dapat menambahkan ke cluster Anda tergantung pada versi Amazon EMR AMI dan versi Hadoop Anda gunakan. Tabel di bawah ini menunjukkan versi AMI dan versi Hadoop yang kompatibel dengan versi yang berbeda dari Pig. Kami merekomendasikan menggunakan versi terbaru yang tersedia dari Pig untuk mengambil keuntungan dari peningkatan kinerja dan fungsionalitas baru.
Saat Anda menggunakan API untuk menginstal Pig, versi default digunakan kecuali Anda menentukan --pig-versions
sebagai argumen untuk langkah yang memuat Pig ke cluster selama panggilan ke RunJobFlow.
Versi Pig | Versi AMI | Parameter konfigurasi | Rincian versi Pig |
---|---|---|---|
0.12.0 | 3.1.0 dan versi yang lebih baru |
|
Menambahkan dukungan untuk hal berikut:
|
0.11.1.1 | 2.2 dan versi yang lebih baru |
|
Meningkatkan kinerja perintah LOAD dengan PigStorage jika input berada di Amazon S3. |
0.11.1 | 2.2 dan versi yang lebih baru |
|
Menambahkan dukungan untuk JDK 7, Hadoop 2, fungsi yang ditentukan pengguna Groovy, optimasi, operator baru, SchemaTuple dan banyak lagi. Untuk informasi selengkapnya, lihat Pig 0.11.1 log perubahan |
0.9.2.2 | 2.2 dan versi yang lebih baru |
|
Menambahkan dukungan untuk Hadoop 1.0.3. |
0.9.2.1 | 2.2 dan versi yang lebih baru |
|
Menambahkan dukungan untuk MapR. |
0.9.2 | 2.2 dan versi yang lebih baru |
|
Termasuk beberapa peningkatan kinerja dan perbaikan bug. Untuk informasi lengkap tentang perubahan untuk Pig 0.9.2, pergi ke Pig 0.9.2 perubahan log |
0.9.1 | 2.0 |
|
|
0,6 | 1.0 |
|
|
0,3 | 1.0 |
|
Rincian versi Pig
Amazon EMR mendukung rilis Pig tertentu yang mungkin memiliki tambahan Amazon EMR patch diterapkan. Anda dapat mengkonfigurasi versi Pig untuk berjalan pada cluster Amazon EMR. Untuk informasi selengkapnya tentang cara melakukan ini, lihat Apache Pig. Bagian berikut menjelaskan versi Pig yang berbeda dan patch diterapkan pada versi dimuat di Amazon EMR.
Patch Pig
Bagian ini menjelaskan patch kustom yang diterapkan ke versi Pig yang tersedia dengan Amazon EMR.
Pig 0.11.1.1 patch
Versi Amazon EMR dari Pig 0.11.1.1 adalah rilis pemeliharaan yang meningkatkan kinerja perintah LOAD dengan PigStorage jika input berada di Amazon S3.
Pig 0.11.1 patch
Versi Amazon EMR dari Pig 0.11.1 berisi semua pembaruan yang disediakan oleh Apache Software Foundation dan kumulatif patch Amazon EMR dari Pig versi 0.9.2.2. Namun, tidak ada patch khusus Amazon EMR baru di Pig 0.11.1.
Pig 0,9.2 patch
Apache Pig 0.9.2 adalah rilis pemeliharaan Pig. Tim Amazon EMR telah menerapkan patch berikut untuk versi Amazon EMR dari Pig 0.9.2.
Patch | Deskripsi |
---|---|
Pig-1429 |
Tambahkan tipe data Boolean untuk Pig sebagai tipe data kelas pertama. Untuk informasi lebih lanjut, kunjungi https://issues.apache. org/jira/browse/PIG-1429 Status: Diterapkan Diperbaiki di Apache Pig Versi: 0.10 |
Pig-1824 |
Support modul impor di Jython UDF. Untuk informasi lebih lanjut, kunjungi https://issues.apache. org/jira/browse/PIG-1824 Status: Diterapkan Diperbaiki di Apache Pig Versi: 0.10 |
Pig-2010 |
Bundel terdaftar JARs pada cache terdistribusi. Untuk informasi lebih lanjut, kunjungi https://issues.apache. org/jira/browse/PIG-2010 Status: Diterapkan Diperbaiki di Apache Pig Versi: 0.11 |
Pig-2456 |
Tambahkan ~ /.pigbootup file di mana pengguna dapat menentukan laporan Pig default. Untuk informasi lebih lanjut, kunjungi https://issues.apache. org/jira/browse/PIG-2456 Status: Diterapkan Diperbaiki di Apache Pig Versi: 0.11 |
Pig-2623 |
Support menggunakan jalur Amazon S3 untuk mendaftar. UDFs Untuk informasi lebih lanjut, kunjungi https://issues.apache. org/jira/browse/PIG-2623 Status: Diterapkan Diperbaiki di Apache Pig Versi: 0.10, 0.11 |
Pig 0,9.1 patch
Tim Amazon EMR telah menerapkan patch berikut untuk versi Amazon EMR Pig 0.9.1.
Patch | Deskripsi |
---|---|
Support file JAR dan script Pig di dfs |
Menambahkan dukungan untuk menjalankan script dan mendaftarkan file JAR disimpan dalam HDFS, Amazon S3, atau sistem file terdistribusi lainnya. Untuk informasi lebih lanjut, kunjungi https://issues.apache. org/jira/browse/PIG-1505 Status: Diterapkan Diperbaiki di Apache Pig Versi: 0.8.0 |
Support beberapa sistem file di Pig |
Tambahkan dukungan untuk skrip Pig untuk membaca data dari satu sistem file dan menuliskannya ke yang lain. Untuk informasi lebih lanjut, kunjungi https://issues.apache. org/jira/browse/PIG-1564 Status: Tidak Diterapkan Diperbaiki di Apache Pig Versi: tidak berlaku |
Tambahkan datetime dan string Piggybank UDFs |
Tambahkan datetime dan string UDFs untuk mendukung skrip Pig kustom. Untuk informasi lebih lanjut, kunjungi https://issues.apache. org/jira/browse/PIG-1565 Status: Tidak Diterapkan Diperbaiki di Apache Pig Versi: tidak berlaku |
Interaktif dan kluster Pig batch
Amazon EMR memungkinkan Anda untuk menjalankan skrip Pig dalam dua mode:
-
Interaktif
-
Batch
Saat Anda meluncurkan cluster yang berjalan lama menggunakan konsol atau AWS CLI, Anda dapat terhubung menggunakan ssh ke node master sebagai pengguna Hadoop dan menggunakan shell Grunt untuk mengembangkan dan menjalankan skrip Pig Anda secara interaktif. Menggunakan Pig interaktif memungkinkan Anda untuk merevisi script Pig lebih mudah dari modus batch. Setelah Anda berhasil merevisi script Pig dalam mode interaktif, Anda dapat meng-upload script ke Amazon S3 dan menggunakan modus batch untuk menjalankan script dalam produksi. Anda juga dapat mengirimkan perintah Pig interaktif pada cluster berjalan untuk menganalisis dan mengubah data yang diperlukan.
Dalam modus batch, Anda meng-upload script Pig Anda ke Amazon S3, dan kemudian mengirimkan pekerjaan ke cluster sebagai langkah. Langkah Pig dapat diserahkan ke cluster berjalan lama atau cluster sementara.