Manfaat menggunakan Amazon EMR - Amazon EMR

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Manfaat menggunakan Amazon EMR

Terdapat banyak manfaat untuk menggunakan Amazon EMR. Ini termasuk fleksibilitas yang ditawarkan melalui AWS dan penghematan biaya yang tersedia dibandingkan membangun sumber daya lokal Anda sendiri. Bagian ini memberikan gambaran umum manfaat dan tautan ke informasi tambahan untuk membantu Anda menjelajah lebih jauh.

Penghematan biaya

Harga Amazon EMR bergantung pada jenis instans dan jumlah EC2 instans Amazon yang Anda terapkan dan Wilayah tempat Anda meluncurkan klaster. Harga sesuai permintaan menawarkan tarif rendah, tetapi Anda dapat mengurangi biaya lebih jauh dengan membeli Instans Cadangan atau Instans Spot. Instans Spot dapat menawarkan penghematan yang signifikan—lebih rendah sebanyak sepersepuluh dari harga sesuai permintaan dalam beberapa kasus.

catatan

Jika Anda menggunakan Amazon S3, Amazon Kinesis, atau DynamoDB dengan klaster EMR Anda, terdapat biaya tambahan untuk layanan tersebut yang ditagih secara terpisah dari penggunaan Amazon EMR Anda.

catatan

Saat menyiapkan kluster EMR Amazon di subnet pribadi, sebaiknya Anda juga menyiapkan titik akhir VPC untuk Amazon S3. Jika kluster EMR Anda berada dalam subnet pribadi tanpa titik akhir VPC untuk Amazon S3, Anda akan dikenakan biaya gateway NAT tambahan yang terkait dengan lalu lintas S3 karena lalu lintas antara kluster EMR Anda dan S3 tidak akan tetap berada dalam VPC Anda.

Untuk informasi selengkapnya tentang opsi harga dan detailnya, lihat harga Amazon EMR.

AWS integrasi

Amazon EMR terintegrasi dengan AWS layanan lain untuk menyediakan kemampuan dan fungsionalitas yang terkait dengan jaringan, penyimpanan, keamanan, dan sebagainya, untuk cluster Anda. Daftar berikut memberikan beberapa contoh integrasi ini:

  • Amazon EC2 untuk instance yang terdiri dari node di cluster

  • Amazon Virtual Private Cloud (Amazon VPC) untuk mengonfigurasi jaringan virtual tempat Anda meluncurkan instans

  • Amazon S3 untuk menyimpan data input dan output

  • Amazon CloudWatch untuk memantau kinerja cluster dan mengonfigurasi alarm

  • AWS Identity and Access Management (IAM) untuk mengonfigurasi izin

  • AWS CloudTrail untuk mengaudit permintaan yang dibuat untuk layanan

  • AWS Data Pipeline untuk menjadwalkan dan memulai cluster Anda

  • AWS Lake Formation untuk menemukan, membuat katalog, dan mengamankan data di danau data Amazon S3

Deployment

Kluster EMR Anda terdiri dari EC2 instance, yang melakukan pekerjaan yang Anda kirimkan ke cluster Anda. Ketika Anda meluncurkan klaster, Amazon EMR mengonfigurasi instans dengan aplikasi yang Anda pilih, seperti Apache Hadoop atau Spark. Pilih ukuran dan jenis instans yang paling sesuai dengan kebutuhan pemrosesan klaster Anda: pemrosesan batch, kueri latensi rendah, data streaming, atau penyimpanan data besar. Untuk informasi selengkapnya tentang tipe instans yang tersedia untuk Amazon EMR, lihat Konfigurasikan perangkat keras dan jaringan cluster Amazon EMR.

Amazon EMR menawarkan berbagai cara untuk mengonfigurasi perangkat lunak pada klaster Anda. Misalnya, Anda dapat menginstal rilis Amazon EMR dengan satu set aplikasi pilihan yang dapat mencakup kerangka kerja serbaguna, seperti Hadoop, dan aplikasi, seperti Hive, Pig, atau Spark. Anda juga dapat menginstal salah satu dari beberapa distribusi MapR. Amazon EMR menggunakan Amazon Linux, sehingga Anda juga dapat menginstal perangkat lunak pada klaster secara manual menggunakan manajer paket yum atau dari sumbernya. Untuk informasi selengkapnya, lihat Konfigurasikan aplikasi saat Anda meluncurkan klaster EMR Amazon.

Skalabilitas dan fleksibilitas

Amazon EMR memberikan fleksibilitas untuk menskalakan klaster Anda naik atau turun seiring berubahnya kebutuhan komputasi Anda. Anda dapat mengubah ukuran klaster untuk menambahkan instans untuk beban kerja puncak dan menghapus instans untuk mengontrol biaya ketika beban kerja puncak mereda. Untuk informasi selengkapnya, lihat Mengubah ukuran cluster EMR Amazon yang sedang berjalan secara manual.

Amazon EMR juga menyediakan opsi untuk menjalankan beberapa grup instans sehingga Anda dapat menggunakan Instans Sesuai Permintaan dalam satu grup untuk daya pemrosesan terjamin bersama dengan Instans Spot dalam grup lain agar pekerjaan Anda selesai lebih cepat dan dengan biaya yang lebih rendah. Anda juga dapat mencampur tipe instans yang berbeda untuk mengambil keuntungan dari harga yang lebih baik untuk satu jenis Instans Spot dari yang lain. Untuk informasi selengkapnya, lihat Kapan Anda harus menggunakan Instans Spot?.

Selain itu, Amazon EMR menyediakan fleksibilitas untuk menggunakan beberapa sistem file untuk input, output, dan data menengah. Misalnya, Anda dapat memilih Hadoop Distributed File System (HDFS) yang berjalan pada node primer dan inti klaster Anda untuk memproses data yang tidak perlu Anda simpan di luar siklus hidup klaster Anda. Anda dapat memilih Sistem File EMR (EMRFS) untuk menggunakan Amazon S3 sebagai lapisan data untuk aplikasi yang berjalan di klaster Anda sehingga Anda dapat memisahkan komputasi dan penyimpanan Anda, serta mempertahankan data di luar siklus hidup klaster. EMRFS memberikan manfaat tambahan yang memungkinkan Anda meningkatkan atau mengurangi kebutuhan komputasi dan penyimpanan Anda secara independen. Anda dapat menskalakan kebutuhan komputasi dengan mengubah ukuran klaster dan Anda dapat menskalakan kebutuhan penyimpanan dengan menggunakan Amazon S3. Untuk informasi selengkapnya, lihat Bekerja dengan penyimpanan dan sistem file dengan Amazon EMR.

Keandalan

Amazon EMR memantau simpul dalam klaster Anda dan secara otomatis mengakhiri dan mengganti instans apabila mengalami kegagalan.

Amazon EMR menyediakan opsi konfigurasi yang mengontrol jika klaster Anda dihentikan secara otomatis atau manual. Jika Anda mengonfigurasi klaster agar secara otomatis diakhiri, klaster akan diakhiri setelah semua langkah selesai. Ini disebut sebagai klaster sementara. Namun, Anda dapat mengonfigurasi klaster untuk terus berjalan setelah pemrosesan selesai sehingga Anda dapat memilih untuk mengakhirinya secara manual ketika tidak lagi membutuhkannya. Atau, Anda dapat membuat klaster, berinteraksi dengan aplikasi yang diinstal secara langsung, kemudian secara manual mengakhiri klaster tersebut ketika tidak lagi membutuhkannya. Klaster dalam contoh ini disebut sebagai klaster yang berjalan lama.

Selain itu, Anda dapat mengonfigurasi perlindungan penghentian untuk mencegah instans di klaster Anda diakhiri karena kesalahan atau masalah selama pemrosesan. Ketika perlindungan penghentian diaktifkan, Anda dapat memulihkan data dari instans sebelum penghentian. Pengaturan default untuk opsi ini berbeda bergantung pada apakah Anda memulai klaster menggunakan konsol, CLI, atau API. Untuk informasi selengkapnya, lihat Menggunakan perlindungan penghentian untuk melindungi kluster EMR Amazon Anda dari penutupan yang tidak disengaja.

Keamanan

Amazon EMR memanfaatkan AWS layanan lain, seperti IAM dan Amazon VPC, serta fitur-fitur seperti pasangan kunci EC2 Amazon, untuk membantu Anda mengamankan cluster dan data Anda.

IAM

Amazon EMR terintegrasi dengan IAM untuk mengelola izin. Anda menentukan izin menggunakan kebijakan IAM, yang Anda lampirkan ke pengguna atau grup IAM. Izin yang Anda tetapkan dalam kebijakan menentukan tindakan yang pengguna atau anggota grup dapat lakukan dan sumber daya yang dapat mereka akses. Untuk informasi selengkapnya, lihat Cara kerja Amazon EMR dengan IAM.

Selain itu, Amazon EMR menggunakan peran IAM untuk layanan EMR Amazon itu sendiri dan profil EC2 instans untuk instans. Peran ini memberikan izin untuk layanan dan instans untuk mengakses AWS layanan lain atas nama Anda. Ada peran default untuk layanan EMR Amazon dan peran default untuk profil EC2 instance. Peran default menggunakan kebijakan AWS terkelola, yang dibuat untuk Anda secara otomatis saat pertama kali meluncurkan klaster EMR dari konsol dan memilih izin default. Anda juga dapat membuat IAM role default dari AWS CLI. Jika Anda ingin mengelola izin, bukan AWS, Anda dapat memilih peran khusus untuk layanan dan profil instans. Untuk informasi selengkapnya, lihat Konfigurasi peran layanan IAM untuk izin Amazon EMR untuk layanan AWS dan sumber daya.

Grup keamanan

Amazon EMR menggunakan grup keamanan untuk mengontrol lalu lintas masuk dan keluar ke instans Anda. EC2 Saat meluncurkan klaster, Amazon EMR menggunakan grup keamanan untuk instans utama dan grup keamanan untuk dibagikan oleh core/task instances. Amazon EMR configures the security group rules to ensure communication among the instances in the cluster. Optionally, you can configure additional security groups and assign them to your primary and core/task instans Anda untuk aturan yang lebih canggih. Untuk informasi selengkapnya, lihat Kontrol lalu lintas jaringan dengan grup keamanan untuk klaster EMR Amazon Anda.

Enkripsi

Amazon EMR mendukung enkripsi di sisi klien dan di sisi server Amazon S3 opsional dengan EMRFS untuk membantu melindungi data yang Anda simpan di Amazon S3. Dengan enkripsi di sisi server, Amazon S3 mengenkripsi data Anda setelah mengunggahnya.

Dengan enkripsi di sisi klien, proses enkripsi dan dekripsi terjadi di klien EMRFS di klaster EMR Anda. Anda mengelola kunci root untuk enkripsi sisi klien menggunakan AWS Key Management Service (AWS KMS) atau sistem manajemen kunci Anda sendiri.

Untuk informasi selengkapnya, lihat Menentukan enkripsi Amazon S3 menggunakan properti EMRFS.

Amazon VPC

Amazon EMR mendukung peluncuran klaster dalam virtual private cloud (VPC) di Amazon VPC. VPC adalah jaringan virtual yang terisolasi AWS yang menyediakan kemampuan untuk mengontrol aspek-aspek lanjutan dari konfigurasi dan akses jaringan. Untuk informasi selengkapnya, lihat Konfigurasikan jaringan di VPC untuk Amazon EMR.

AWS CloudTrail

Amazon EMR terintegrasi dengan CloudTrail untuk mencatat informasi tentang permintaan yang dibuat oleh atau atas nama akun Anda. AWS Dengan informasi ini, Anda dapat melacak siapa yang mengakses klaster Anda dan kapan, dan alamat IP asal mereka membuat permintaan. Untuk informasi selengkapnya, lihat Pencatatan AWS panggilan EMR API menggunakan AWS CloudTrail.

Pasangan EC2 kunci Amazon

Anda dapat memantau dan berinteraksi dengan cluster Anda dengan membentuk koneksi aman antara komputer jarak jauh Anda dan node utama. Anda menggunakan protokol jaringan Secure Shell (SSH) untuk koneksi ini atau menggunakan Kerberos untuk autentikasi. Jika Anda menggunakan SSH, diperlukan EC2 key pair Amazon. Untuk informasi selengkapnya, lihat Menggunakan EC2 key pair untuk kredensyal SSH untuk Amazon EMR.

Pemantauan

Anda dapat menggunakan file log dan antarmuka manajemen Amazon EMR untuk memecahkan masalah klaster, seperti kegagalan atau kesalahan. Amazon EMR menyediakan kemampuan untuk mengarsipkan file log di Amazon S3 sehingga Anda dapat menyimpan log dan memecahkan masalah bahkan setelah klaster Anda berakhir. Amazon EMR juga menyediakan alat debugging opsional di konsol Amazon EMR untuk menelusuri file log berdasarkan langkah, pekerjaan, dan tugas. Untuk informasi selengkapnya, lihat Konfigurasikan pencatatan dan debugging cluster EMR Amazon EMR.

Amazon EMR terintegrasi dengan CloudWatch untuk melacak metrik kinerja untuk klaster dan pekerjaan di dalam klaster. Anda dapat mengonfigurasi alarm berdasarkan berbagai metrik, seperti apakah klaster dalam keadaan diam atau persentase penyimpanan yang digunakan. Untuk informasi selengkapnya, lihat Memantau metrik Amazon EMR dengan CloudWatch.

Antarmuka manajemen

Ada beberapa cara berinteraksi dengan Amazon EMR:

  • Konsol — Antarmuka pengguna grafis yang dapat Anda gunakan untuk meluncurkan dan mengelola klaster. Dengan itu, Anda mengisi formulir web untuk menentukan detail klaster untuk memulai, melihat detail klaster yang ada, men-debug, dan mengakhiri klaster. Menggunakan konsol adalah cara paling mudah untuk memulai Amazon EMR; tidak memerlukan pengetahuan pemrograman. Konsol tersedia online di https://console.aws.amazon.com/elasticmapreduce/rumah.

  • AWS Command Line Interface (AWS CLI) - Aplikasi klien yang Anda jalankan di mesin lokal Anda untuk terhubung ke Amazon EMR dan membuat serta mengelola cluster. AWS CLI Ini berisi serangkaian perintah kaya fitur khusus untuk Amazon EMR. Dengan itu, Anda dapat menulis skrip yang mengotomatiskan proses peluncuran dan pengelolaan klaster. Jika Anda lebih suka bekerja dari baris perintah, menggunakan AWS CLI adalah opsi terbaik. Untuk informasi lebih lanjut, lihat Amazon EMR dalam Referensi Perintah AWS CLI .

  • Software Development Kit (SDK) - SDKs menyediakan fungsi yang memanggil Amazon EMR untuk membuat dan mengelola cluster. Dengan SDK, Anda dapat menulis aplikasi yang mengotomatiskan proses pembuatan dan pengelolaan klaster. Menggunakan SDK adalah opsi terbaik untuk memperluas atau menyesuaikan fungsi Amazon EMR. Amazon EMR saat ini tersedia sebagai berikutSDKs: Go, Java, .NET (C # dan VB.NET), Node.js, PHP, Python, dan Ruby. Untuk informasi selengkapnya tentang ini SDKs, lihat Alat untuk AWS dan kode sampel EMR Amazon & pustaka.

  • Layanan Web API — Antarmuka tingkat rendah yang dapat Anda gunakan untuk memanggil layanan web secara langsung, menggunakan JSON. Menggunakan API ini adalah opsi terbaik untuk membuat SDK khusus yang memanggil Amazon EMR. Untuk informasi lebih lanjut, lihat Referensi Amazon EMR API.