AWS Data Pipeline tidak lagi tersedia untuk pelanggan baru. Pelanggan yang sudah ada dari AWS Data Pipeline dapat terus menggunakan layanan seperti biasa. Pelajari selengkapnya
Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Menjalankan Pekerjaan pada Sumber Daya yang Ada Menggunakan Runner Tugas
Anda dapat menginstal Task Runner pada sumber daya komputasi yang Anda kelola, seperti EC2 instans Amazon, atau server fisik atau workstation. Task Runner dapat diinstal di mana saja, pada perangkat keras atau sistem operasi yang kompatibel, asalkan dapat berkomunikasi dengan layanan AWS Data Pipeline web.
Pendekatan ini dapat berguna ketika, misalnya, Anda ingin menggunakan AWS Data Pipeline untuk memproses data yang disimpan di dalam firewall organisasi Anda. Dengan menginstal Task Runner di server di jaringan lokal, Anda dapat mengakses database lokal dengan aman dan kemudian melakukan polling AWS Data Pipeline untuk tugas berikutnya yang akan dijalankan. Saat AWS Data Pipeline selesai memproses atau menghapus pipeline, instance Task Runner tetap berjalan di sumber daya komputasi hingga Anda mematikannya secara manual. Log Runner Tugas tetap ada setelah eksekusi alur selesai.
Untuk menggunakan Runner Tugas pada sumber daya yang Anda kelola, Anda harus mengunduh Runner Tugas terlebih dahulu, lalu memasangnya pada sumber daya komputasi Anda, menggunakan prosedur di bagian ini.
catatan
Anda hanya dapat menginstal Task Runner di Linux,UNIX, atau macOS. Runner Tugas tidak didukung pada sistem operasi Windows.
Untuk menggunakan Task Runner 2.0, versi Java minimum yang dibutuhkan adalah 1.7.
Untuk menghubungkan Runner Tugas yang telah Anda pasang ke aktivitas alur yang harus diproses, tambahkan bidang workerGroup
ke objek, dan konfigurasikan Runner Tugas untuk melakukan polling untuk nilai grup pekerja tersebut. Anda melakukan ini dengan meneruskan string grup pekerja sebagai parameter (misalnya,--workerGroup=wg-12345
) ketika Anda menjalankan JAR file Task Runner.
{ "id" : "CreateDirectory", "type" : "ShellCommandActivity", "workerGroup" : "wg-12345", "command" : "mkdir new-directory" }
Pemasangan Runner Tugas
Bagian ini menjelaskan cara memasang dan mengonfigurasi Runner Tugas dan prasyaratnya. Pemasangan adalah proses manual yang mudah.
Untuk memasang Runner Tugas
-
Runner Tugas memerlukan Java versi 1.6 atau 1.8. Untuk menentukan apakah Java telah terpasang, dan versi yang sedang berjalan, gunakan perintah berikut:
java -version
Jika Anda tidak memasang Java 1.6 atau 1.8 di komputer Anda, unduh salah satu versi ini dari http://www.Oracle.com/technetwork/java/index.html
. Unduh dan pasang Java, lalu lanjutkan ke langkah berikutnya. -
Unduh
TaskRunner-1.0.jar
dari https://s3.amazonaws.com/datapipeline-us-east-1/us-east-1/software/latest/TaskRunner/TaskRunner-1.0.jardan kemudian salin ke folder pada sumber daya komputasi target. Untuk EMR klaster Amazon yang menjalankan EmrActivity
tugas, instal Task Runner pada node master cluster. -
Saat menggunakan Task Runner untuk terhubung ke layanan AWS Data Pipeline web untuk memproses perintah Anda, pengguna memerlukan akses terprogram ke peran yang memiliki izin untuk membuat atau mengelola pipeline data. Untuk informasi selengkapnya, lihat Memberikan akses terprogram.
-
Task Runner terhubung ke layanan AWS Data Pipeline web menggunakanHTTPS. Jika Anda menggunakan AWS sumber daya, pastikan itu HTTPS diaktifkan di tabel routing dan ACL subnet yang sesuai. Jika Anda menggunakan firewall atau proxy, pastikan port 443 terbuka.
Memulai Runner Tugas
Di jendela prompt perintah baru yang diatur ke direktori tempat Anda memasang Runner Tugas, mulai Runner Tugas dengan perintah berikut.
java -jar TaskRunner-1.0.jar --config ~/
credentials.json
--workerGroup=myWorkerGroup
--region=MyRegion
--logUri=s3://mybucket/foldername
Opsi --config
menunjuk ke file kredensial Anda.
Opsi --workerGroup
menentukan nama grup pekerja Anda, yang harus memiliki nilai yang sama seperti yang ditentukan dalam alur Anda agar tugas dapat diproses.
Opsi --region
menentukan wilayah layanan tempat menarik tugas untuk dieksekusi.
Opsi --logUri
digunakan untuk mendorong log terkompresi Anda ke lokasi di Amazon S3.
Saat Runner Tugas aktif, ia mencetak jalur ke tempat berkas log ditulis di jendela terminal. Berikut adalah contohnya.
Logging to /Computer_Name/.../output/logs
Runner Tugas harus dijalankan terlepas dari shell login Anda. Jika Anda menggunakan aplikasi terminal untuk terhubung ke komputer Anda, Anda mungkin perlu menggunakan utilitas seperti nohup atau layar untuk mencegah aplikasi Runner Tugas keluar saat Anda log out. Untuk informasi selengkapnya tentang opsi baris perintah, lihat Opsi Konfigurasi Runner Tugas.
Memverifikasi Pencatatan Runner Tugas
Cara termudah untuk memverifikasi bahwa Runner Tugas berfungsi adalah dengan memeriksa apakah ia menulis berkas log. Runner Tugas menulis berkas log per jam ke direktori, output/logs
, di bawah direktori tempat Runner Tugas dipasang. Nama file adalahTask Runner.log.YYYY-MM-DD-HH
, di mana HH berjalan dari 00 hingga 23, diUDT. Untuk menghemat ruang penyimpanan, file log apa pun yang lebih tua dari delapan jam dikompresi. GZip