Pilih preferensi cookie Anda

Kami menggunakan cookie penting serta alat serupa yang diperlukan untuk menyediakan situs dan layanan. Kami menggunakan cookie performa untuk mengumpulkan statistik anonim sehingga kami dapat memahami cara pelanggan menggunakan situs dan melakukan perbaikan. Cookie penting tidak dapat dinonaktifkan, tetapi Anda dapat mengklik “Kustom” atau “Tolak” untuk menolak cookie performa.

Jika Anda setuju, AWS dan pihak ketiga yang disetujui juga akan menggunakan cookie untuk menyediakan fitur situs yang berguna, mengingat preferensi Anda, dan menampilkan konten yang relevan, termasuk iklan yang relevan. Untuk menerima atau menolak semua cookie yang tidak penting, klik “Terima” atau “Tolak”. Untuk membuat pilihan yang lebih detail, klik “Kustomisasi”.

Memproses data DynamoDB dengan Apache Hive di Amazon EMR

Mode fokus
Memproses data DynamoDB dengan Apache Hive di Amazon EMR - Amazon DynamoDB

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Amazon DynamoDB terintegrasi dengan Apache Hive, aplikasi pergudangan data yang berjalan di Amazon. EMR Hive dapat membaca dan menulis data dalam tabel DynamoDB, sehingga Anda dapat:

  • Kueri data DynamoDB langsung menggunakan bahasa -like (SQLHiveQL).

  • Menyalin data dari tabel DynamoDB ke bucket Amazon S3, dan sebaliknya.

  • Salin data dari tabel DynamoDB ke Hadoop Distributed File System HDFS (), dan sebaliknya.

  • Melakukan operasi gabungan pada tabel DynamoDB.

Gambaran Umum

Amazon EMR adalah layanan yang memudahkan proses data dalam jumlah besar dengan cepat dan hemat biaya. Untuk menggunakan AmazonEMR, Anda meluncurkan cluster terkelola EC2 instans Amazon yang menjalankan kerangka open source Hadoop. Hadoop adalah aplikasi terdistribusi yang mengimplementasikan MapReduce algoritma, di mana tugas dipetakan ke beberapa node di cluster. Setiap simpul memproses pekerjaan yang ditentukan secara paralel dengan simpul lain. Terakhir, output dikurangi pada simpul tunggal, sehingga menghasilkan hasil akhir.

Anda dapat memilih untuk meluncurkan EMR cluster Amazon Anda sehingga persisten atau sementara:

  • Klaster persisten berjalan sampai Anda menonaktifkannya. Klaster persisten ideal untuk analisis data, gudang data, atau penggunaan interaktif lainnya.

  • Klaster transien berjalan cukup lama untuk memproses alur kerja, lalu akan tidak aktif secara otomatis. Klaster transien ideal untuk tugas-tugas pemrosesan berkala, seperti menjalankan skrip.

Untuk informasi tentang EMR arsitektur dan administrasi Amazon, lihat Panduan EMR Manajemen Amazon.

Saat meluncurkan EMR klaster Amazon, Anda menentukan nomor awal dan jenis EC2 instans Amazon. Anda juga menentukan aplikasi terdistribusi lainnya (selain Hadoop itu sendiri) yang ingin Anda jalankan di klaster. Aplikasi ini termasuk Hue, Mahout, Pig, Spark, dan banyak lagi.

Untuk informasi tentang aplikasi untuk AmazonEMR, lihat Panduan EMR Rilis Amazon.

Tergantung pada konfigurasi klaster, Anda mungkin memiliki satu atau lebih jenis simpul berikut:

  • Leader node — Mengelola cluster, mengoordinasikan distribusi MapReduce executable dan subset dari data mentah, ke inti dan kelompok instance tugas. Ini juga melacak status setiap tugas yang dilakukan dan memantau kondisi grup instans. Hanya ada satu simpul pemimpin dalam klaster.

  • Node inti — Menjalankan MapReduce tugas dan menyimpan data menggunakan Hadoop Distributed File System ()HDFS.

  • Node tugas (opsional) - Menjalankan MapReduce tugas.

PrivasiSyarat situsPreferensi cookie
© 2025, Amazon Web Services, Inc. atau afiliasinya. Semua hak dilindungi undang-undang.