Otomatiskan cluster EMR Amazon berulang dengan AWS Data Pipeline - Amazon EMR

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Otomatiskan cluster EMR Amazon berulang dengan AWS Data Pipeline

AWS Data Pipeline adalah layanan yang mengotomatiskan pergerakan dan transformasi data. Anda dapat menggunakannya untuk menjadwalkan memindahkan data input ke Amazon S3 dan menjadwalkan peluncuran klaster untuk memproses data tersebut. Sebagai contoh, pertimbangkan kasus ketika Anda memiliki server web yang merekam log lalu lintas. Jika Anda ingin menjalankan cluster mingguan untuk menganalisis data lalu lintas, Anda dapat menggunakannya AWS Data Pipeline untuk menjadwalkan cluster tersebut. AWS Data Pipeline adalah alur kerja berbasis data, sehingga satu tugas (meluncurkan cluster) dapat bergantung pada tugas lain (memindahkan data input ke Amazon S3). Ini juga memiliki fungsi coba lagi yang tangguh.

Untuk informasi selengkapnya AWS Data Pipeline, lihat Panduan AWS Data Pipeline Pengembang, terutama tutorial tentang Amazon EMR: