Memproses pernyataan HiveQL

Hive adalah aplikasi yang berjalan di Hadoop, yang merupakan kerangka kerja berorientasi batch untuk menjalankan pekerjaan. MapReduce Saat Anda mengeluarkan pernyataan HiveQL, Hive menentukan apakah pernyataan tersebut dapat segera mengembalikan hasilnya atau apakah harus mengirimkan pekerjaan. MapReduce

Misalnya, pertimbangkan tabel ddb_features (dari Tutorial: Menggunakan Amazon DynamoDB dan Apache Hive). Kueri Hive berikut mencetak singkatan negara dan jumlah pertemuan puncak di masing-masing negara:


SELECT state_alpha, count(*)
FROM ddb_features
WHERE feature_class = 'Summit'
GROUP BY state_alpha;

Hive tidak segera menampilkan hasil. Sebaliknya, ia mengirimkan MapReduce pekerjaan, yang diproses oleh kerangka Hadoop. Hive akan menunggu sampai tugas selesai sebelum menunjukkan hasil dari kueri:


AK  2
AL  2
AR  2
AZ  3
CA  7
CO  2
CT  2
ID  1
KS  1
ME  2
MI  1
MT  3
NC  1
NE  1
NM  1
NY  2
OR  5
PA  1
TN  1
TX  1
UT  4
VA  1
VT  2
WA  2
WY  3
Time taken: 8.753 seconds, Fetched: 25 row(s)

Pemantauan dan pembatalan tugas

Saat Hive meluncurkan tugas Hadoop, Hive akan mencetak output dari tugas itu. Status penyelesaian tugas diperbarui saat tugas berlangsung. Dalam beberapa kasus, status mungkin tidak diperbarui untuk waktu yang lama. (Hal ini dapat terjadi ketika Anda mengkueri tabel DynamoDB besar yang memiliki pengaturan kapasitas baca dengan ketersediaan rendah.)

Jika harus membatalkan tugas sebelum selesai, Anda dapat mengetik Ctrl+C kapan saja.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Membuat tabel eksternal di Hive

Mengkueri data di DynamoDB