Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Kirim langkah streaming
Bagian ini mencakup dasar-dasar mengirimkan langkah streaming ke cluster. Aplikasi streaming membaca input dari input standar dan kemudian menjalankan skrip atau executable (disebut mapper) terhadap setiap input. Hasil dari masing-masing input disimpan secara lokal, biasanya di partisi Sistem File Terdistribusi Hadoop (HDFS). Setelah semua input diproses oleh pemeta, skrip kedua atau yang dapat dieksekusi (disebut peredam) memproses hasil pemeta. Hasil dari peredam dikirim ke output standar. Anda dapat menyatukan serangkaian langkah streaming, di mana output dari satu langkah menjadi masukan dari langkah lain.
Pemeta dan peredam masing-masing dapat direferensikan sebagai file atau Anda dapat menyediakan kelas Java. Anda dapat menerapkan pemeta dan peredam dalam salah satu bahasa yang didukung, termasuk Ruby, Perl, Python, PHP, atau Bash.
Kirim langkah streaming menggunakan konsol
Contoh ini menjelaskan cara menggunakan konsol EMR Amazon untuk mengirimkan langkah streaming ke cluster yang sedang berjalan.
Untuk mengirimkan langkah streaming
Buka konsol EMR Amazon di https://console.aws.amazon.com /emr.
-
Pada halaman Daftar Klaster, pilih tautan untuk klaster Anda.
-
Gulir ke bagian Langkah dan perluas, lalu pilih Tambahkan langkah.
-
Di kotak dialog Tambahkan Langkah:
-
Untuk Tipe langkah, pilih Program streaming.
-
Untuk Nama, terima nama default (program Streaming) atau ketik nama baru.
-
Untuk Pemeta, ketik atau jelajahi ke lokasi kelas pemeta Anda di Hadoop, atau bucket S3 tempat pemeta yang dapat dieksekusi, seperti program Python, berada. Nilai jalur harus dalam bentuk
BucketName
/path
/MapperExecutable
. -
Untuk Peredam, ketik atau jelajahi ke lokasi kelas peredam Anda di Hadoop, atau bucket S3 tempat pemeta yang dapat dieksekusi, seperti program Python, berada. Nilai jalur harus dalam bentuk
BucketName
/path
/MapperExecutable
. Amazon EMR mendukung kata kunci khusus agregat. Untuk informasi lebih lanjut, buka pustaka Agregat yang disediakan oleh Hadoop. -
Untuk Lokasi Input S3, ketik atau jelajahi ke lokasi data input Anda.
-
Untuk Lokasi Output S3, ketik atau jelajahi nama bucket output Amazon S3.
-
Untuk Pendapat, biarkan kosong.
-
Untuk Tindakan pada kegagalan, terima opsi default (Lanjutkan).
-
-
Pilih Tambahkan. Langkah muncul di konsol dengan status Tertunda.
-
Status langkah perubahan dari Tertunda ke Sedang Berjalan hingga Selesai sebagai langkah berjalan. Untuk memperbarui status, pilih ikon Refresh di atas kolom Tindakan.
AWS CLI
Contoh-contoh ini menunjukkan cara menggunakan AWS CLI untuk membuat cluster dan mengirimkan langkah Streaming.
Untuk membuat cluster dan mengirimkan langkah streaming menggunakan AWS CLI
-
Untuk membuat cluster dan mengirimkan langkah streaming menggunakan AWS CLI, ketik perintah berikut dan ganti
myKey
dengan nama EC2 key pair Anda. Perhatikan bahwa argumen Anda untuk--files
harus jalur Amazon S3 ke lokasi skrip Anda, dan argumen untuk-mapper
dan-reducer
harus berupa nama file skrip masing-masing.aws emr create-cluster --name "
Test cluster
" --release-labelemr-7.7.0
--applications Name=Hue
Name=Hive
Name=Pig
--use-default-roles \ --ec2-attributes KeyName=myKey
--instance-typem5.xlarge
--instance-count3
\ --steps Type=STREAMING
,Name="Streaming Program"
,ActionOnFailure=CONTINUE
,Args=[--files,pathtoscripts
,-mapper,mapperscript
,-reducer,reducerscript
,aggregate
,-input,pathtoinputdata
,-output,pathtooutputbucket
]catatan
Karakter lanjutan baris Linux (\) disertakan agar mudah dibaca Karakter ini bisa dihapus atau digunakan dalam perintah Linux. Untuk Windows, hapus atau ganti dengan tanda sisipan (^).
Ketika Anda menentukan jumlah instans tanpa menggunakan
--instance-groups
parameter, simpul utama tunggal diluncurkan, dan instans yang tersisa diluncurkan sebagai simpul inti. Semua simpul menggunakan tipe instans yang ditentukan dalam perintah.catatan
Jika sebelumnya Anda belum membuat peran layanan EMR Amazon dan profil EC2 instance default, ketik aws
emr create-default-roles
untuk membuatnya sebelum mengetik subperintah.create-cluster
Untuk informasi selengkapnya tentang penggunaan perintah EMR Amazon di AWS CLI, lihat. https://docs.aws.amazon.com/cli/latest/reference/emr