Apache Hive 外掛程式 - Amazon EMR

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Apache Hive 外掛程式

Apache Hive 是 Hadoop 生態系統中熱門的執行引擎。Amazon EMR 提供了一個 Apache 遊俠插件,以便能夠為蜂巢提供精細的訪問控制。此外掛程式與開放原始碼 Apache Ranger Admin 伺服器 2.0 版及更新版本相容。

支援的功能

適用於 Hive 的 Apache Ranger 外掛程式EMR支援開放原始碼外掛程式的所有功能,包括資料庫、資料表、資料行層級存取控制,以及資料列篩選和資料遮罩。如需 Hive 命令和關聯的 Ranger 許可的資料表,請參閱 Hive 命令與 Ranger 許可映射

安裝服務組態

阿帕奇蜂巢插件是與阿帕奇蜂巢 Hadoop SQL 的現有蜂巢服務定義兼容。

阿帕奇蜂巢的 Hadoop SQL 的服務定義。

如果您沒有 Hadoop 下的服務實例,如上所示SQL,則可以創建一個。點擊旁邊的 Hadoop SQL 的 +

  1. 服務名稱 (如果顯示):輸入服務名稱。建議的值為 amazonemrhive。記下此服務名稱-創建EMR安全配置時需要。

  2. 顯示名稱:輸入要顯示的服務名稱。建議的值為 amazonemrhive

阿帕奇蜂巢的 Hadoop SQL 的服務詳細信息。

Apache Hive Config 屬性用於建立與 Apache Ranger 管理服務器的連接,以便在創建策略時實現 auto 完成。 HiveServer如果您沒有持續性 HiveServer 2 處理程序且可以填入任何資訊,則下列屬性不需要準確無誤。

  • 使用者名稱:輸入JDBC連線至 HiveServer 2 執行處理之執行個體的使用者名稱。

  • 密碼:輸入上面的使用者名稱的密碼。

  • jdbc. 驅動程序。 ClassName:輸入 Apache 蜂巢連線的JDBC類別名稱。您可以使用預設值。

  • jdbc.url:輸入連接到 2 時要使用的JDBC連接字符串。 HiveServer

  • 憑證的通用名稱:憑證內的 CN 欄位用於從用戶端外掛程式連接至管理伺服器。此值必須與TLS憑證中為外掛程式建立的 CN 欄位相符。

Apache Hive 服務組態屬性。

測試連線」按鈕會測試上述值是否可用來成功連線至 HiveServer 2 個執行個體。成功建立服務後,Service Manager 應如下所示:

連接到 HiveServer 2 個實例

考量事項

Hive 中繼資料伺服器

Hive 中繼資料伺服器只能由可信引擎 (特別是 Hive 和 emr_record_server) 存取,以防止未經授權的存取。Hive 中繼資料伺服器也可由叢集上的所有節點存取。所需的連接埠 9083 可讓所有節點存取主節點。

身分驗證

依預設,Apache Hive 會設定為使用EMR安全性設定中所設定的 Kerberos 進行驗證。 HiveServer2 也可以配置為使用者驗證使LDAP用者。如需相關資訊,請參閱在多租戶 Amazon EMR 叢集上實作 Hive 的LDAP身份驗證

限制

以下是 Amazon EMR 5.x 上 Apache Hive 外掛程式的目前限制:

  • 目前不支援 Hive 角色。不支援授權、撤銷陳述式。

  • 不支持配置單元CLI。JDBC/Beeline 是連接蜂巢的唯一授權方式。

  • hive.server2.builtin.udf.blacklist配置應填充您UDFs認為不安全的配置。