Apache Pig - Amazon EMR

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Apache Pig

Apache Pig adalah open-source Apache perpustakaan yang berjalan di atas Hadoop, menyediakan bahasa scripting yang dapat Anda gunakan untuk mengubah set data yang besar tanpa harus menulis kode kompleks dalam bahasa komputer tingkat yang lebih rendah seperti Java. Perpustakaan mengambil perintah SQL seperti yang ditulis dalam bahasa yang disebut Pig Latin dan mengubah perintah tersebut menjadi pekerjaan Tez berdasarkan grafik asiklik terarah () atau program. DAGs MapReduce Pig bekerja dengan data terstruktur dan tidak terstruktur dalam berbagai format. Untuk informasi selengkapnya tentang Pig, lihat http://pig.apache.org/.

Anda dapat menjalankan perintah Pig secara interaktif atau dalam mode batch. Untuk menggunakan Pig secara interaktif, buat SSH koneksi ke node master dan kirimkan perintah menggunakan shell Grunt. Untuk menggunakan Pig dalam modus batch, menulis script Pig Anda, meng-upload mereka ke Amazon S3, dan mengirimkannya sebagai langkah cluster. Untuk informasi selengkapnya tentang mengirimkan karya ke klaster, lihat Mengirimkan karya ke klaster di Panduan EMRManajemen Amazon.

Saat Anda menggunakan Pig untuk menulis output ke HCatalog tabel di Amazon S3, nonaktifkan penulisan EMR langsung Amazon dengan menyetel mapred.output.direct.EmrFileSystem properti mapred.output.direct.NativeS3FileSystem dan ke. false Untuk informasi selengkapnya, lihat Menggunakan HCatalog. Dalam script Pig, Anda dapat menggunakan SET mapred.output.direct.NativeS3FileSystem false dan SET mapred.output.direct.EmrFileSystem false Perintah.

Tabel berikut mencantumkan versi Babi yang termasuk dalam rilis terbaru seri Amazon EMR 7.x, bersama dengan komponen yang EMR dipasang Amazon dengan Pig.

Untuk versi komponen yang diinstal dengan Pig dalam rilis ini, lihat Rilis Versi Komponen 7.3.0.

Informasi versi babi untuk emr-7.3.0
Label EMR Rilis Amazon Versi Babi Komponen Dipasang Dengan Babi

emr-7.3.0

Pig 0.17.0

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, pig-client, tez-on-yarn, tez-on-worker

Tabel berikut mencantumkan versi Babi yang termasuk dalam rilis terbaru seri Amazon EMR 6.x, bersama dengan komponen yang EMR dipasang Amazon dengan Pig.

Untuk versi komponen yang diinstal dengan Pig dalam rilis ini, lihat Rilis Versi Komponen 6.15.0.

Informasi versi babi untuk emr-6.15.0
Label EMR Rilis Amazon Versi Babi Komponen Dipasang Dengan Babi

emr-6.15.0

Pig 0.17.0

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, pig-client, tez-on-yarn, tez-on-worker

Tabel berikut mencantumkan versi Babi yang termasuk dalam rilis terbaru seri Amazon EMR 5.x, bersama dengan komponen yang EMR dipasang Amazon dengan Pig.

Untuk versi komponen yang diinstal dengan Pig dalam rilis ini, lihat Rilis 5.36.2 Versi Komponen.

Informasi versi babi untuk emr-5.36.2
Label EMR Rilis Amazon Versi Babi Komponen Dipasang Dengan Babi

emr-5.36.2

Pig 0.17.0

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, pig-client, tez-on-yarn