Plugin Apache Hive - Amazon EMR

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Plugin Apache Hive

Apache Hive adalah mesin eksekusi populer di ekosistem Hadoop. Amazon EMR menyediakan plugin Apache Ranger untuk dapat memberikan kontrol akses berbutir halus untuk Hive. Plugin ini kompatibel dengan server Admin Apache Ranger versi 2.0 dan versi terbaru.

Fitur yang didukung

Plugin Apache Ranger untuk Hive on EMR mendukung semua fungsionalitas plugin open source, yang mencakup database, tabel, kontrol akses tingkat kolom dan pemfilteran baris dan penyembunyian data. Untuk tabel perintah Hive dan terkait izin Ranger, lihat perintah Hive untuk pemetaan izin Ranger.

Instalasi konfigurasi layanan

Plugin Apache Hive kompatibel dengan definisi layanan Hive yang ada dalam Apache Hive Hadoop. SQL

Definisi layanan Apache Hive untuk Hadoop. SQL

Jika Anda tidak memiliki instance layanan di bawah HadoopSQL, seperti yang ditunjukkan di atas, Anda dapat membuatnya. Klik pada + di sebelah HadoopSQL.

  1. Nama Layanan (Jika ditampilkan): Anda perlu memasukkan nama layanan. Nilai yang direkomendasikan adalah amazonemrhive. Catat nama layanan ini -- diperlukan saat membuat konfigurasi EMR keamanan.

  2. Nama Tampilan: Memasukkan nama yang akan ditampilkan untuk layanan. Nilai yang direkomendasikan adalah amazonemrhive.

Detail layanan Apache Hive untuk Hadoop. SQL

Properti Apache Hive Config digunakan untuk membuat koneksi ke server Admin Apache Ranger Anda dengan 2 untuk mengimplementasikan auto complete saat HiveServer membuat kebijakan. Properti di bawah ini tidak diharuskan akurat jika Anda tidak memiliki proses HiveServer 2 yang persisten dan dapat diisi dengan informasi apa pun.

  • Username: Masukkan nama pengguna untuk JDBC koneksi ke instance dari instance HiveServer 2.

  • Kata Sandi: Anda perlu memasukkan kata sandi untuk nama pengguna di atas.

  • jdbc.driver. ClassName: Masukkan nama kelas JDBC kelas untuk konektivitas Apache Hive. Nilai default dapat digunakan.

  • jdbc.url: Masukkan string JDBC koneksi yang akan digunakan saat menghubungkan ke 2. HiveServer

  • Nama Umum untuk Sertifikat: Bidang CN di sertifikat yang digunakan untuk connect ke server admin dari plugin klien. Nilai ini harus sesuai dengan bidang CN di TLS sertifikat Anda yang dibuat untuk plugin.

Properti konfigurasi layanan Apache Hive.

Tombol Test Connection menguji apakah nilai-nilai di atas dapat digunakan untuk berhasil terhubung ke instance HiveServer 2. Setelah layanan berhasil dibuat, Manajer Layanan akan terlihat seperti di bawah ini:

Terhubung ke HiveServer 2 instance

Pertimbangan

Server metadata sarang

Server metadata Hive hanya dapat diakses oleh mesin tepercaya, khususnya Hive danemr_record_server, untuk melindungi dari akses yang tidak sah. Server metadata Hive juga diakses oleh semua node di cluster. Port 9083 yang diperlukan menyediakan semua node akses ke node utama.

Autentikasi

Secara default, Apache Hive dikonfigurasi untuk mengautentikasi menggunakan Kerberos seperti yang dikonfigurasi dalam konfigurasi Keamanan. EMR HiveServer2 dapat dikonfigurasi untuk mengotentikasi pengguna menggunakan LDAP juga. Lihat Menerapkan LDAP autentikasi untuk Hive di klaster EMR Amazon multi-penyewa untuk informasi.

Batasan

Berikut ini adalah batasan saat ini untuk plugin Apache Hive di Amazon EMR 5.x:

  • Peran Hive saat ini tidak didukung. Pernyataan Berikan, Batalkan tidak didukung.

  • Hive CLI tidak didukung. JDBC/Beeline adalah satu-satunya cara resmi untuk menghubungkan Hive.

  • hive.server2.builtin.udf.blacklistkonfigurasi harus diisi dengan UDFs yang Anda anggap tidak aman.