Apache- Hive-Plugin - Amazon EMR

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Apache- Hive-Plugin

Apache Hive ist eine beliebte Ausführungs-Engine innerhalb des Hadoop-Ökosystems. Amazon EMR bietet ein Apache Ranger-Plugin, um detaillierte Zugriffskontrollen für Hive bereitstellen zu können. Das Plugin ist mit Admin-Server-Version von Open-Source-Apache-Ranger 2.0 und höher kompatibel.

Unterstützte Features

Das Apache Ranger-Plugin für Hive on EMR unterstützt alle Funktionen des Open-Source-Plug-ins, einschließlich Zugriffskontrollen auf Datenbank-, Tabellen- und Spaltenebene sowie Zeilenfilterung und Datenmaskierung. Eine Tabelle mit Hive-Befehlen und den zugehörigen Ranger-Berechtigungen finden Sie unter Zuordnung von Hive-Befehlen zu Ranger-Berechtigungen.

Installation der Servicekonfiguration

Das Apache Hive-Plug-in ist mit der bestehenden Hive-Dienstdefinition in Apache Hive Hadoop kompatibel. SQL

Apache Hive-Dienstdefinition für Hadoop. SQL

Wenn Sie keine Instanz des Dienstes unter Hadoop habenSQL, wie oben gezeigt, können Sie eine erstellen. Klicken Sie auf das + neben SQL Hadoop.

  1. Servicename (falls angezeigt): Geben Sie den Servicenamen ein. Der vorgeschlagene Wert ist amazonemrhive. Notieren Sie sich diesen Dienstnamen. Er wird benötigt, wenn Sie eine EMR Sicherheitskonfiguration erstellen.

  2. Anzeigename: Der Name, der für diesen Service angezeigt wird. Der vorgeschlagene Wert ist amazonemrhive.

Einzelheiten zum Apache Hive-Dienst für SQL Hadoop.

Die Apache Hive Config Properties werden verwendet, um eine Verbindung zu Ihrem Apache Ranger Admin-Server mit einer HiveServer 2 herzustellen, um die auto Vervollständigung bei der Erstellung von Richtlinien zu implementieren. Die folgenden Eigenschaften müssen nicht korrekt sein, wenn Sie nicht über einen persistenten HiveServer 2-Prozess verfügen, und sie können mit beliebigen Informationen gefüllt werden.

  • Benutzername: Geben Sie einen Benutzernamen für die JDBC Verbindung zu einer Instanz einer HiveServer 2-Instanz ein.

  • Passwort: Geben Sie das Passwort für den obigen Benutzernamen ein.

  • jdbc.driver. ClassName: Geben Sie den Klassennamen der JDBC Klasse für die Apache Hive-Konnektivität ein. Sie können den Standardwert verwenden.

  • jdbc.url: Geben Sie die JDBC Verbindungszeichenfolge ein, die beim Herstellen einer Verbindung zu 2 verwendet werden soll. HiveServer

  • Allgemeiner Name für das Zertifikat: Das CN-Feld innerhalb des Zertifikats, das verwendet wird, um von einem Client-Plugin aus eine Verbindung zum Admin-Server herzustellen. Dieser Wert muss mit dem CN-Feld in Ihrem TLS Zertifikat übereinstimmen, das für das Plugin erstellt wurde.

Konfigurationseigenschaften des Apache-Hive-Services.

Mit der Schaltfläche Verbindung testen wird getestet, ob die obigen Werte verwendet werden können, um erfolgreich eine Verbindung mit der HiveServer 2-Instanz herzustellen. Sobald der Service erfolgreich erstellt wurde, sollte der Service Manager wie folgt aussehen:

Mit der HiveServer 2-Instanz verbunden

Überlegungen

Hive-Metadatenserver

Zum Schutz vor unbefugtem Zugriff können nur vertrauenswürdige Engines, insbesondere Hive und emr_record_server, auf den Hive-Metadatenserver zugreifen. Auf den Hive-Metadatenserver greifen auch alle Knoten im Cluster zu. Der erforderliche Port 9 083 ermöglicht allen Knoten den Zugriff auf den Hauptknoten.

Authentifizierung

Standardmäßig ist Apache Hive für die Authentifizierung mithilfe von Kerberos konfiguriert, wie in der Sicherheitskonfiguration konfiguriert. EMR HiveServer2 kann so konfiguriert werden, dass Benutzer auch mithilfe von authentifiziert werden. LDAP Weitere Informationen finden Sie unter Implementierung der LDAP Authentifizierung für Hive auf einem EMR Amazon-Cluster mit mehreren Mandanten.

Einschränkungen

Die folgenden Einschränkungen gelten derzeit für das Apache Hive-Plug-in auf Amazon EMR 5.x:

  • Hive-Rollen werden derzeit nicht unterstützt. Die Anweisungen „Grant“ und „Revoke“ werden nicht unterstützt.

  • Hive CLI wird nicht unterstützt. JDBC/Beeline ist die einzige autorisierte Methode, Hive zu verbinden.

  • hive.server2.builtin.udf.blacklistDie Konfiguration sollte mit Daten gefüllt seinUDFs, die Sie für unsicher halten.