Memulai dengan EMR Tanpa Server dari konsol - Amazon EMR

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Memulai dengan EMR Tanpa Server dari konsol

Langkah 1: Buat aplikasi EMR Tanpa Server

Buat aplikasi baru dengan EMR Serverless sebagai berikut.

  1. Masuk ke AWS Management Console dan buka EMR konsol Amazon di https://console.aws.amazon.com/emr.

  2. Di panel navigasi kiri, pilih EMRTanpa Server untuk menavigasi ke halaman landing Tanpa EMR Server.

  3. Untuk membuat atau mengelola aplikasi EMR Tanpa Server, Anda memerlukan UI EMR Studio.

    • Jika Anda sudah memiliki EMR Studio di Wilayah AWS tempat Anda ingin membuat aplikasi, lalu pilih Kelola aplikasi untuk menavigasi ke EMR Studio Anda, atau pilih studio yang ingin Anda gunakan.

    • Jika Anda tidak memiliki EMR Studio di Wilayah AWS tempat Anda ingin membuat aplikasi, pilih Mulai lalu Pilih Buat dan luncurkan Studio. EMRTanpa server membuat EMR Studio untuk Anda sehingga Anda dapat membuat dan mengelola aplikasi.

  4. Di UI Buat studio yang terbuka di tab baru, masukkan nama, jenis, dan versi rilis untuk aplikasi Anda. Jika Anda hanya ingin menjalankan pekerjaan batch, pilih Gunakan pengaturan default untuk pekerjaan batch saja. Untuk beban kerja interaktif, pilih Gunakan pengaturan default untuk beban kerja interaktif. Anda juga dapat menjalankan pekerjaan batch pada aplikasi yang diaktifkan interaktif dengan opsi ini. Jika perlu, Anda dapat mengubah pengaturan ini nanti.

    Untuk informasi selengkapnya, lihat Membuat studio.

  5. Pilih Buat aplikasi untuk membuat aplikasi pertama Anda.

Lanjutkan ke bagian berikutnya Langkah 2: Kirim pekerjaan atau beban kerja interaktif untuk mengirimkan pekerjaan atau beban kerja interaktif.

Langkah 2: Kirim pekerjaan atau beban kerja interaktif

Spark job run

Dalam tutorial ini, kita menggunakan PySpark script untuk menghitung jumlah kemunculan kata-kata unik di beberapa file teks. Bucket S3 publik dan hanya-baca menyimpan skrip dan kumpulan data.

Untuk menjalankan pekerjaan Spark
  1. Unggah skrip sampel wordcount.py ke bucket baru Anda dengan perintah berikut.

    aws s3 cp s3://us-east-1.elasticmapreduce/emr-containers/samples/wordcount/scripts/wordcount.py s3://amzn-s3-demo-bucket/scripts/
  2. Menyelesaikan Langkah 1: Buat aplikasi EMR Tanpa Server membawa Anda ke halaman detail Aplikasi di EMR Studio. Di sana, pilih opsi Kirim pekerjaan.

  3. Pada halaman Kirim pekerjaan, lengkapi yang berikut ini.

    • Di bidang Nama, masukkan nama yang ingin Anda panggil job run.

    • Di bidang peran Runtime, masukkan nama peran yang Anda buat. Buat peran runtime pekerjaan

    • Di bidang Lokasi skrip, masukkan s3://amzn-s3-demo-bucket/scripts/wordcount.py sebagai S3URI.

    • Di bidang argumen Script, masukkan["s3://amzn-s3-demo-bucket/emr-serverless-spark/output"].

    • Di bagian properti Spark, pilih Edit sebagai teks dan masukkan konfigurasi berikut.

      --conf spark.executor.cores=1 --conf spark.executor.memory=4g --conf spark.driver.cores=1 --conf spark.driver.memory=4g --conf spark.executor.instances=1
  4. Untuk memulai pekerjaan, pilih Kirim pekerjaan.

  5. Di tab Job runs, Anda akan melihat pekerjaan baru Anda berjalan dengan status Running.

Hive job run

Di bagian tutorial ini, kita membuat tabel, menyisipkan beberapa catatan, dan menjalankan kueri agregasi hitungan. Untuk menjalankan pekerjaan Hive, pertama-tama buat file yang berisi semua kueri Hive untuk dijalankan sebagai bagian dari pekerjaan tunggal, unggah file ke S3, dan tentukan jalur S3 ini saat memulai pekerjaan Hive.

Untuk menjalankan pekerjaan Hive
  1. Buat file bernama hive-query.ql yang berisi semua kueri yang ingin Anda jalankan dalam pekerjaan Hive Anda.

    create database if not exists emrserverless; use emrserverless; create table if not exists test_table(id int); drop table if exists Values__Tmp__Table__1; insert into test_table values (1),(2),(2),(3),(3),(3); select id, count(id) from test_table group by id order by id desc;
  2. Unggah hive-query.ql ke bucket S3 Anda dengan perintah berikut.

    aws s3 cp hive-query.ql s3://amzn-s3-demo-bucket/emr-serverless-hive/query/hive-query.ql
  3. Menyelesaikan Langkah 1: Buat aplikasi EMR Tanpa Server membawa Anda ke halaman detail Aplikasi di EMR Studio. Di sana, pilih opsi Kirim pekerjaan.

  4. Pada halaman Kirim pekerjaan, lengkapi yang berikut ini.

    • Di bidang Nama, masukkan nama yang ingin Anda panggil job run.

    • Di bidang peran Runtime, masukkan nama peran yang Anda buat. Buat peran runtime pekerjaan

    • Di bidang Lokasi skrip, masukkan s3://amzn-s3-demo-bucket/emr-serverless-hive/query/hive-query.ql sebagai S3URI.

    • Di bagian Properti sarang, pilih Edit sebagai teks, dan masukkan konfigurasi berikut.

      --hiveconf hive.log.explain.output=false
    • Di bagian konfigurasi Job, pilih Edit sebagai JSON, dan masukkan yang berikut iniJSON.

      { "applicationConfiguration": [{ "classification": "hive-site", "properties": { "hive.exec.scratchdir": "s3://amzn-s3-demo-bucket/emr-serverless-hive/hive/scratch", "hive.metastore.warehouse.dir": "s3://amzn-s3-demo-bucket/emr-serverless-hive/hive/warehouse", "hive.driver.cores": "2", "hive.driver.memory": "4g", "hive.tez.container.size": "4096", "hive.tez.cpu.vcores": "1" } }] }
  5. Untuk memulai pekerjaan, pilih Kirim pekerjaan.

  6. Di tab Job runs, Anda akan melihat pekerjaan baru Anda berjalan dengan status Running.

Interactive workload

Dengan Amazon EMR 6.14.0 dan yang lebih tinggi, Anda dapat menggunakan notebook yang di-host di EMR Studio untuk menjalankan beban kerja interaktif untuk Spark di Tanpa Server. EMR Untuk informasi selengkapnya termasuk izin dan prasyarat, lihat. Jalankan beban kerja interaktif dengan Tanpa EMR Server melalui Studio EMR

Setelah membuat aplikasi dan menyiapkan izin yang diperlukan, gunakan langkah-langkah berikut untuk menjalankan buku catatan interaktif dengan EMR Studio:

  1. Arahkan ke tab Workspaces di EMR Studio. Jika Anda masih perlu mengonfigurasi lokasi penyimpanan Amazon S3 dan peran layanan EMR Studio, pilih tombol Configure studio di spanduk di bagian atas layar.

  2. Untuk mengakses buku catatan, pilih Workspace atau buat Workspace baru. Gunakan Quick launch untuk membuka Workspace Anda di tab baru.

  3. Buka tab yang baru dibuka. Pilih ikon Compute dari navigasi kiri. Pilih EMR Tanpa Server sebagai tipe Compute.

  4. Pilih aplikasi berkemampuan interaktif yang Anda buat di bagian sebelumnya.

  5. Di bidang peran Runtime, masukkan nama IAM peran yang dapat diasumsikan oleh aplikasi EMR Tanpa Server Anda untuk menjalankan pekerjaan. Untuk mempelajari lebih lanjut tentang peran runtime, lihat Peran runtime Job di Panduan Pengguna Tanpa EMR Server Amazon.

  6. Pilih Lampirkan. Ini mungkin memakan waktu hingga satu menit. Halaman akan disegarkan saat dilampirkan.

  7. Pilih kernel dan mulai notebook. Anda juga dapat menelusuri contoh buku catatan di EMR Tanpa Server dan menyalinnya ke Workspace Anda. Untuk mengakses contoh buku catatan, navigasikan ke {...}menu di navigasi kiri dan telusuri buku catatan yang ada serverless di nama file notebook.

  8. Di buku catatan, Anda dapat mengakses tautan log driver dan tautan ke Apache Spark UI, antarmuka waktu nyata yang menyediakan metrik untuk memantau pekerjaan Anda. Untuk informasi selengkapnya, lihat Memantau aplikasi dan pekerjaan EMR Tanpa Server di Panduan Pengguna Tanpa EMRServer Amazon.

Saat Anda melampirkan aplikasi ke ruang kerja Studio, aplikasi mulai terpicu secara otomatis jika aplikasi tersebut belum berjalan. Anda juga dapat memulai aplikasi terlebih dahulu dan menyiapkannya sebelum Anda melampirkannya ke ruang kerja.

Langkah 3: Lihat UI aplikasi dan log

Untuk melihat UI aplikasi, pertama-tama identifikasi pekerjaan yang dijalankan. Opsi untuk Spark UI atau Hive Tez UI tersedia di baris pertama opsi untuk pekerjaan itu, berdasarkan jenis pekerjaan. Pilih opsi yang sesuai.

Jika Anda memilih UI Spark, pilih tab Executors untuk melihat log driver dan pelaksana. Jika Anda memilih Hive Tez UI, pilih tab Semua Tugas untuk melihat log.

Setelah status job run ditampilkan sebagai Sukses, Anda dapat melihat output pekerjaan di bucket S3 Anda.

Langkah 4: Membersihkan

Meskipun aplikasi yang Anda buat harus berhenti otomatis setelah 15 menit tidak aktif, kami tetap menyarankan Anda merilis sumber daya yang tidak ingin Anda gunakan lagi.

Untuk menghapus aplikasi, navigasikan ke halaman Daftar aplikasi. Pilih aplikasi yang Anda buat dan pilih Tindakan → Berhenti untuk menghentikan aplikasi. Setelah aplikasi dalam STOPPED keadaan, pilih aplikasi yang sama dan pilih Tindakan → Hapus.

Untuk lebih banyak contoh menjalankan pekerjaan Spark dan Hive, lihat Lowongan kerja Spark dan. Pekerjaan sarang