Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Amazon DynamoDB terintegrasi dengan Apache Hive, aplikasi pergudangan data yang berjalan di Amazon. EMR Hive dapat membaca dan menulis data dalam tabel DynamoDB, sehingga Anda dapat:
-
Kueri data DynamoDB langsung menggunakan bahasa -like (SQLHiveQL).
-
Menyalin data dari tabel DynamoDB ke bucket Amazon S3, dan sebaliknya.
-
Salin data dari tabel DynamoDB ke Hadoop Distributed File System HDFS (), dan sebaliknya.
-
Melakukan operasi gabungan pada tabel DynamoDB.
Topik
Gambaran Umum
Amazon EMR adalah layanan yang memudahkan proses data dalam jumlah besar dengan cepat dan hemat biaya. Untuk menggunakan AmazonEMR, Anda meluncurkan cluster terkelola EC2 instans Amazon yang menjalankan kerangka open source Hadoop. Hadoop adalah aplikasi terdistribusi yang mengimplementasikan MapReduce algoritma, di mana tugas dipetakan ke beberapa node di cluster. Setiap simpul memproses pekerjaan yang ditentukan secara paralel dengan simpul lain. Terakhir, output dikurangi pada simpul tunggal, sehingga menghasilkan hasil akhir.
Anda dapat memilih untuk meluncurkan EMR cluster Amazon Anda sehingga persisten atau sementara:
-
Klaster persisten berjalan sampai Anda menonaktifkannya. Klaster persisten ideal untuk analisis data, gudang data, atau penggunaan interaktif lainnya.
-
Klaster transien berjalan cukup lama untuk memproses alur kerja, lalu akan tidak aktif secara otomatis. Klaster transien ideal untuk tugas-tugas pemrosesan berkala, seperti menjalankan skrip.
Untuk informasi tentang EMR arsitektur dan administrasi Amazon, lihat Panduan EMR Manajemen Amazon.
Saat meluncurkan EMR klaster Amazon, Anda menentukan nomor awal dan jenis EC2 instans Amazon. Anda juga menentukan aplikasi terdistribusi lainnya (selain Hadoop itu sendiri) yang ingin Anda jalankan di klaster. Aplikasi ini termasuk Hue, Mahout, Pig, Spark, dan banyak lagi.
Untuk informasi tentang aplikasi untuk AmazonEMR, lihat Panduan EMR Rilis Amazon.
Tergantung pada konfigurasi klaster, Anda mungkin memiliki satu atau lebih jenis simpul berikut:
-
Leader node — Mengelola cluster, mengoordinasikan distribusi MapReduce executable dan subset dari data mentah, ke inti dan kelompok instance tugas. Ini juga melacak status setiap tugas yang dilakukan dan memantau kondisi grup instans. Hanya ada satu simpul pemimpin dalam klaster.
-
Node inti — Menjalankan MapReduce tugas dan menyimpan data menggunakan Hadoop Distributed File System ()HDFS.
-
Node tugas (opsional) - Menjalankan MapReduce tugas.