Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Kirim hasil karya Pig
Bagian ini menunjukkan mengirimkan Pig bekerja untuk cluster Amazon EMR. Contoh berikut menghasilkan laporan yang berisi total byte yang ditransfer, daftar 50 alamat IP teratas, daftar 50 referer eksternal teratas, dan 50 istilah penelusuran teratas menggunakan Bing dan Google. Skrip Pig terletak di bucket Amazon S3 s3://elasticmapreduce/samples/pig-apache/do-reports2.pig
. Data masukan terletak di bucket Amazon S3 s3://elasticmapreduce/samples/pig-apache/input
. Output disimpan ke bucket Amazon S3.
Kirim Pig bekerja menggunakan konsol Amazon EMR
Contoh ini menjelaskan cara menggunakan konsol Amazon EMR.
Untuk mengirimkan langkah Pig
Buka konsol EMR Amazon di https://console.aws.amazon.com /emr.
-
Pilih Create cluster untuk membuat cluster dengan Pig diinstal. Untuk langkah-langkah tentang cara membuat klaster, lihat Merencanakan dan mengonfigurasi klaster EMR Amazon.
-
Buka terminal dan SSH ke master node cluster Anda mengikuti langkah-langkah yang diuraikan dalam Connect to the master node menggunakan SSH. Setelah Anda melakukannya, jalankan langkah-langkah berikut.
sudo mkdir -p /home/hadoop/lib/pig/ sudo aws s3 cp s3://elasticmapreduce/libs/pig/0.3/piggybank-0.3-amzn.jar /home/hadoop/lib/pig/piggybank.jar
-
Di konsol, klik Daftar Cluster dan pilih nama cluster yang Anda buat.
-
Gulir ke bagian Langkah dan perluas, lalu pilih Tambahkan langkah.
-
Di Tambah Langkah dialog:
-
Untuk Jenis langkah, pilih Program Pig.
-
Untuk Nama, menerima nama default (program Pig) atau ketik nama baru.
-
Untuk Lokasi Script S3, ketik lokasi skrip Pig. Sebagai contoh:
s3://elasticmapreduce/samples/pig-apache/do-reports2.pig
. -
Untuk Masukan lokasi S3, ketik lokasi input data. Sebagai contoh:
s3://elasticmapreduce/samples/pig-apache/input
. -
Untuk Lokasi Output S3, ketik atau jelajahi nama bucket Amazon S3.
-
Untuk Pendapat, biarkan kosong.
-
Untuk Tindakan pada kegagalan, terima opsi default (Lanjutkan).
-
-
Pilih Tambahkan. Langkah muncul di konsol dengan status Tertunda.
-
Status langkah perubahan dari Tertunda ke Sedang Berjalan hingga Selesai sebagai langkah berjalan. Untuk memperbarui status, pilih ikon Segarkan di atas kolom Tindakan. Saat langkah Anda selesai, periksa bucket Amazon S3 Anda untuk mengonfirmasi file keluaran langkah Babi Anda ada di sana.
Kirim pekerjaan Babi menggunakan AWS CLI
Untuk mengirimkan langkah Babi menggunakan AWS CLI
Saat Anda meluncurkan cluster menggunakan AWS CLI, gunakan --applications
parameter untuk menginstal Pig. Untuk mengirimkan langkah Pig, gunakan --steps
Parameter.
-
Untuk meluncurkan cluster dengan Pig diinstal, ketik perintah berikut, ganti
myKey
danamzn-s3-demo-bucket/
dengan nama EC2 key pair dan bucket Amazon S3 Anda.aws emr create-cluster \ --name "
Test cluster
" \ --log-uri s3://amzn-s3-demo-bucket/
\ --release-labelemr-5.36.2
\ --applications Name=Pig \ --use-default-roles \ --ec2-attributes KeyName=myKey
\ --instance-typem5.xlarge
\ --instance-count3
catatan
Karakter lanjutan baris Linux (\) disertakan agar mudah dibaca Karakter ini bisa dihapus atau digunakan dalam perintah Linux. Untuk Windows, hapus atau ganti dengan tanda sisipan (^).
Ketika Anda menentukan jumlah instans tanpa menggunakan
--instance-groups
parameter, simpul utama tunggal diluncurkan, dan instans yang tersisa diluncurkan sebagai simpul inti. Semua simpul menggunakan tipe instans yang ditentukan dalam perintah.catatan
Jika sebelumnya Anda belum membuat peran layanan EMR default dan profil EC2 instance, ketik
aws emr create-default-roles
untuk membuatnya sebelum mengetik subperintah.create-cluster
-
Untuk mengirimkan langkah Babi, masukkan perintah berikut, ganti
myClusterId
danamzn-s3-demo-bucket
dengan ID cluster dan nama bucket Amazon S3 Anda.aws emr add-steps \ --cluster-id
myClusterId
\ --steps Type=PIG,Name="Pig Program",ActionOnFailure=CONTINUE,Args=[-f,s3://elasticmapreduce/samples/pig-apache/do-reports2.pig,-p,INPUT=s3://elasticmapreduce/samples/pig-apache/input,-p,OUTPUT=s3://amzn-s3-demo-bucket
/pig-apache/output]Perintah ini akan mengembalikan ID langkah, yang dapat Anda gunakan untuk memeriksa langkah Anda.
State
-
Kueri status langkah Anda dengan
describe-step
perintah.aws emr describe-step --cluster-id
myClusterId
--step-ids-1XXXXXXXXXXA
State
dari langkah berubah dariPENDING
keRUNNING
keCOMPLETED
selagi langkah berjalan. Saat langkah Anda selesai, periksa bucket Amazon S3 Anda untuk mengonfirmasi file keluaran langkah Babi Anda ada di sana.
Untuk informasi selengkapnya tentang menggunakan perintah EMR Amazon di AWS CLI, lihat Referensi AWS CLI Perintah.