Einrichten der Spark-Benutzerkennung Verwenden des Spark-Widgets für die Auftragsüberwachung

Aktivieren des Identitätswechsels zur Überwachung von Spark-Benutzer- und -Aufgabenaktivitäten

EMRNotebooks ermöglicht es Ihnen, den Benutzerwechsel auf einem Spark-Cluster zu konfigurieren. Mit dieser Funktion können Sie die Auftragsaktivität nachverfolgen, die innerhalb des Notebook-Editors initiiert wurde. Darüber hinaus verfügt EMR Notebooks über ein integriertes Jupyter Notebook-Widget, mit dem Sie die Spark-Jobdetails zusammen mit der Abfrageausgabe im Notebook-Editor anzeigen können. Das Widget ist standardmäßig verfügbar und erfordert keine spezielle Konfiguration. Um die Verlaufsserver anzeigen zu können, muss Ihr Client jedoch so konfiguriert sein, dass er EMR Amazon-Webschnittstellen anzeigt, die auf dem primären Knoten gehostet werden.

Anmerkung

EMRNotebooks sind in der Konsole als EMR Studio-Workspaces verfügbar. Mit der Schaltfläche „Arbeitsbereich erstellen“ in der Konsole können Sie neue Notizbücher erstellen. Um auf Workspaces zuzugreifen oder diese zu erstellen, benötigen EMR Notebook-Benutzer zusätzliche IAM Rollenberechtigungen. Weitere Informationen finden Sie unter Amazon EMR Notebooks sind Amazon EMR Studio-Workspaces in der Konsole und EMRAmazon-Konsole.

Einrichten der Spark-Benutzerkennung

Standardmäßig stammen Spark-Aufträge, die Benutzer mit dem Notebook-Editor übermitteln, scheinbar aus einer unbestimmten livy-Benutzeridentität. Sie können eine Benutzerkennung für den Cluster konfigurieren, damit diese Aufträge stattdessen mit der Benutzeridentität verknüpft werden, die den Code ausgeführt hat. HDFSBenutzerverzeichnisse auf dem primären Knoten werden für jede Benutzeridentität erstellt, die Code im Notizbuch ausführt. Beispiel: Wenn der Benutzer NbUser1 Code aus dem Notebook-Editor ausführt, können Sie eine Verbindung mit dem Primärknoten herstellen und sehen, dass hadoop fs -ls /user das Verzeichnis /user/user_NbUser1 zeigt.

Sie können diese Funktion aktivieren, indem Sie Eigenschaften in den Konfigurationsklassifizierungen core-site und livy-conf festlegen. Diese Funktion ist standardmäßig nicht verfügbar, wenn Sie Amazon einen Cluster zusammen mit einem Notizbuch EMR erstellen lassen. Weitere Informationen zur Verwendung von Konfigurationsklassifizierungen zur Anpassung von Anwendungen finden Sie unter Konfiguration von Anwendungen im Amazon EMR Release Guide.

Verwenden Sie die folgenden Konfigurationsklassifizierungen und Werte, um die Benutzeridentität für Notebooks zu aktivieren: EMR


[
    {
        "Classification": "core-site",
        "Properties": {
          "hadoop.proxyuser.livy.groups": "*",
          "hadoop.proxyuser.livy.hosts": "*"
        }
    },
    {
        "Classification": "livy-conf",
        "Properties": {
          "livy.impersonation.enabled": "true"
        }
    }
]

Wenn Sie im Notebook-Editor Code ausführen, der Spark-Jobs auf dem EMR Cluster ausführt, enthält die Ausgabe ein Jupyter Notebook-Widget für die Spark-Jobüberwachung. Das Widget stellt Auftragsdetails, nützliche Links zur Spark-Verlaufsserverseite und zur Hadoop-Auftragsverlaufsseite sowie praktische Links zu Auftragsprotokollen in Amazon S3 für alle fehlgeschlagenen Aufträge bereit.

Um die Seiten des History-Servers auf dem primären Clusterknoten anzuzeigen, müssen Sie entsprechend einen SSH Client und einen Proxy einrichten. Weitere Informationen finden Sie unter Auf EMR Amazon-Clustern gehostete Weboberflächen anzeigen. Um Protokolle in Amazon S3 anzuzeigen, muss die Cluster-Protokollierung aktiviert sein. Dies ist die Standardeinstellung für neue Cluster. Weitere Informationen finden Sie unter In Amazon S3 archivierte Protokolldateien anzeigen.

Nachstehend finden Sie ein Beispiel für die Spark-Auftragsüberwachung.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Ruby-Beispielskript

Sicherheit