Memproses Data DynamoDB Dengan Apache Hive di Amazon EMR

Amazon DynamoDB terintegrasi dengan Apache Hive, aplikasi gudang data yang berjalan di Amazon EMR. Hive dapat membaca dan menulis data dalam tabel DynamoDB, sehingga Anda dapat:

Kueri data DynamoDB langsung menggunakan SQL-like bahasa (HiveQL).
Menyalin data dari tabel DynamoDB ke bucket Amazon S3, dan sebaliknya.
Menyalin data dari tabel DynamoDB ke Hadoop Distributed File System (HDFS), dan sebaliknya.
Melakukan operasi gabungan pada tabel DynamoDB.

Topik

Ikhtisar

Amazon EMR adalah layanan yang mempermudah proses data dalam jumlah besar dengan cepat dan hemat biaya. Untuk menggunakan Amazon EMR, Anda perlu meluncurkan klaster yang dikelola dari instans Amazon EC2 yang menjalankan kerangka kerja sumber terbuka Hadoop. Hadoop adalah aplikasi terdistribusi yang mengimplementasikan MapReduce algoritma, di mana tugas dipetakan ke beberapa node di cluster. Setiap simpul memproses pekerjaan yang ditentukan secara paralel dengan simpul lain. Terakhir, output dikurangi pada simpul tunggal, sehingga menghasilkan hasil akhir.

Anda dapat memilih untuk meluncurkan klaster Amazon EMR Anda sehingga menjadi persisten atau transien:

Klaster persisten berjalan sampai Anda menonaktifkannya. Klaster persisten ideal untuk analisis data, gudang data, atau penggunaan interaktif lainnya.
Klaster transien berjalan cukup lama untuk memproses alur kerja, lalu akan tidak aktif secara otomatis. Klaster transien ideal untuk tugas-tugas pemrosesan berkala, seperti menjalankan skrip.

Untuk informasi tentang arsitektur dan administrasi Amazon EMR, lihat Panduan Manajemen Amazon EMR.

Ketika meluncurkan klaster Amazon EMR, Anda menentukan nomor awal dan jenis instans Amazon EC2. Anda juga menentukan aplikasi terdistribusi lainnya (selain Hadoop itu sendiri) yang ingin Anda jalankan di klaster. Aplikasi ini termasuk Hue, Mahout, Pig, Spark, dan banyak lagi.

Untuk informasi tentang aplikasi untuk Amazon EMR, lihat Panduan Rilis Amazon EMR.

Tergantung pada konfigurasi klaster, Anda mungkin memiliki satu atau lebih jenis simpul berikut:

Leader node — Mengelola cluster, mengoordinasikan distribusi MapReduce executable dan subset dari data mentah, ke inti dan kelompok instance tugas. Ini juga melacak status setiap tugas yang dilakukan dan memantau kondisi grup instans. Hanya ada satu simpul pemimpin dalam klaster.
Node inti — Menjalankan MapReduce tugas dan menyimpan data menggunakan Hadoop Distributed File System (HDFS).
Node tugas (opsional) - Menjalankan MapReduce tugas.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Memuat data dari DynamoDB ke Amazon Redshift dengan COPY

Tutorial: Menggunakan Amazon DynamoDB dan Apache Hive