EMRFunktionen, Anforderungen und Einschränkungen von Studio - Amazon EMR

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

EMRFunktionen, Anforderungen und Einschränkungen von Studio

Dieses Thema enthält Punkte, die Sie bei der Arbeit mit Amazon EMR Studio berücksichtigen sollten, darunter Überlegungen zu Regionen und Tools, Cluster-Anforderungen und technischen Einschränkungen.

Überlegungen

Beachten Sie bei der Arbeit mit EMR Studio Folgendes:

  • EMRStudio ist in den folgenden Versionen verfügbar AWS-Regionen:

    • USA Ost (Ohio): (us-east-2)

    • USA Ost (Nord-Virginia): (us-east-1)

    • USA West (Nordkalifornien) (us-west-1)

    • USA West (Oregon): (us-west-2)

    • Afrika (Kapstadt) (af-south-1)

    • Asien-Pazifik (Hongkong) (ap-east-1)

    • Asien-Pazifik (Jakarta) (ap-southeast-3) *

    • Asien-Pazifik (Melbourne) (ap-southeast-4) *

    • Asien-Pazifik (Mumbai): (ap-south-1)

    • Asien-Pazifik (Osaka) (ap-northeast-3) *

    • Asien-Pazifik (Seoul): (ap-northeast-2)

    • Asien-Pazifik (Singapur): (ap-southeast-1)

    • Asien-Pazifik (Sydney): (ap-southeast-2)

    • Asien-Pazifik (Tokyo) (ap-northeast-1)

    • Kanada (Zentral): (ca-central-1)

    • Europa (Frankfurt) (eu-central-1)

    • Europa (Irland) (eu-west-1)

    • Europa (London) (eu-west-2)

    • Europa (Mailand) (eu-south-1)

    • Europa (Paris) (eu-west-3)

    • Europa (Spanien) (eu-south-2)

    • Europa (Stockholm) (eu-north-1)

    • Europa (Zürich) (eu-central-2) *

    • Israel (Tel Aviv) il-central-1) *

    • Naher Osten (UAE) (me-central-1) *

    • Südamerika (São Paulo) (sa-east-1)

    • AWS GovCloud (US-Ost) (-1) gov-us-east

    • AWS GovCloud (US-West) (gov-us-west-1)

    * Die Live-Spark-Benutzeroberfläche wird in diesen Regionen nicht unterstützt.

  • Damit Benutzer neue EMR Cluster, die auf Amazon laufen, EC2 für einen Workspace bereitstellen können, können Sie ein EMR Studio mit einer Reihe von Cluster-Vorlagen verknüpfen. Administratoren können Clustervorlagen mit Service Catalog definieren und wählen, ob ein Benutzer oder eine Gruppe innerhalb eines Studios auf die Clustervorlagen zugreifen kann oder keine Clustervorlagen.

  • Wenn Sie Zugriffsberechtigungen für Notizbuchdateien definieren, die in Amazon S3 gespeichert sind oder aus denen Geheimnisse gelesen werden AWS Secrets Manager, verwenden Sie die EMR Amazon-Servicerolle. Sitzungsrichtlinien werden mit diesen Berechtigungen nicht unterstützt.

  • Sie können mehrere EMR Studios einrichten, um den Zugriff auf EMR Cluster in verschiedenen Bereichen zu kontrollierenVPCs.

  • Verwenden Sie die AWS CLI , um Amazon EMR auf EKS Clustern einzurichten. Anschließend können Sie die Studio-Oberfläche verwenden, um Cluster an Workspaces mit einem verwalteten Endpunkt anzuhängen, um Notebook-Jobs auszuführen.

  • Wenn Sie Trusted Identity Propagation mit Amazon verwenden, gibt es weitere ÜberlegungenEMR, die auch für EMR Studio gelten. Weitere Informationen finden Sie unter Überlegungen und Einschränkungen für Amazon EMR bei der Identity Center-Integration.

  • EMRStudio unterstützt die folgenden magischen Python-Befehle nicht:

    • %alias

    • %alias_magic

    • %automagic

    • %macro

    • %%js

    • %%javascript

    • Ändern von proxy_user mit %configure

    • Ändern von KERNEL_USERNAME mit %env oder %set_env

  • Amazon EMR auf EKS Clustern unterstützt keine SparkMagic Befehle für EMR Studio.

  • Um mehrzeilige Scala-Anweisungen in Notebookzellen zu schreiben, stellen Sie sicher, dass alle Zeilen bis auf die letzte mit einem Punkt enden. Im folgenden Beispiel wird die richtige Syntax für mehrzeilige Scala-Anweisungen verwendet.

    val df = spark.sql("SELECT * from table_name). filter("col1=='value'"). limit(50)
  • Um die Sicherheit der Anwendungen außerhalb der Konsole zu erhöhen, die Sie möglicherweise mit Amazon verwendenEMR, werden die Anwendungshosting-Domains in der Liste der öffentlichen Suffixe () registriert. PSL Zu diesen Hosting-Domains gehören beispielsweise die folgenden: emrstudio-prod.us-east-1.amazonaws.com, emrnotebooks-prod.us-east-1.amazonaws.com, emrappui-prod.us-east-1.amazonaws.com. Aus Sicherheitsgründen empfehlen wir Ihnen, Cookies mit einem __Host--Präfix zu verwenden, falls Sie jemals sensible Cookies im Standard-Domainnamen einrichten müssen. Dies trägt dazu bei, Ihre Domain vor standortübergreifenden Anforderungsfälschungsversuchen zu schützen (). CSRF Weitere Informationen finden Sie hier: Set-CookieSeite im Mozilla Developer Network.

  • Amazon EMR Studio Workspaces und Persistent UI Endpoints verwenden FIPS 140-2 validierte kryptografische Module für encryption-in-transit, was eine einfachere Einführung des Service für regulierte Workloads ermöglicht. Weitere Informationen zu Endpunkten mit persistenten Benutzeroberflächen finden Sie unter Benutzerschnittstellen für persistente Anwendungen in Amazon EMR anzeigen. Weitere Informationen zu Notizbüchern finden Sie in der Übersicht über Amazon EMR Notebooks.

Bekannte Probleme

  • Ein EMR Studio, das IAM Identity Center mit aktivierter Weitergabe vertrauenswürdiger Identitäten verwendet, kann nur EMR Clustern zugeordnet werden, die auch Trusted Identity Propagation verwenden.

  • Stellen Sie sicher, dass Sie Proxy-Management-Tools deaktivieren, z. B. FoxyProxy or SwitchyOmega im Browser, bevor Sie ein Studio erstellen. Aktive Proxys können Fehler verursachen, wenn Sie Studio erstellen wählen, und zu einer Netzwerkfehler-Fehlermeldung führen.

  • Kernel, die auf Amazon EMR auf EKS Clustern ausgeführt werden, können aufgrund von Timeout-Problemen nicht gestartet werden. Wenn beim Starten des Kernels ein Fehler oder ein Problem auftritt, schließen Sie die Notebook-Datei, fahren Sie den Kernel herunter und öffnen Sie die Notebook-Datei erneut.

  • Der Vorgang zum Neustarten des Kernels funktioniert nicht wie erwartet, wenn Sie einen EMR EKS Amazon-On-Cluster verwenden. Nachdem Sie Kernel neu starten ausgewählt haben, aktualisieren Sie den Workspace, damit der Neustart wirksam wird.

  • Wenn ein Workspace nicht an einen Cluster angehängt ist, wird eine Fehlermeldung angezeigt, wenn ein Studio-Benutzer eine Notebook-Datei öffnet und versucht, einen Kernel auszuwählen. Sie können diese Fehlermeldung ignorieren, indem Sie OK wählen, aber Sie müssen den Workspace an einen Cluster anhängen und einen Kernel auswählen, bevor Sie Notebook-Code ausführen können.

  • Wenn Sie Amazon EMR 6.2.0 mit einer Sicherheitskonfiguration verwenden, um die Clustersicherheit einzurichten, erscheint die Workspace-Oberfläche leer und funktioniert nicht wie erwartet. Wir empfehlen Ihnen, eine andere unterstützte Version von Amazon zu verwenden, EMR wenn Sie Datenverschlüsselung oder Amazon S3 S3-Autorisierung EMRFS für einen Cluster konfigurieren möchten. EMR Studio funktioniert mit den EMR Amazon-Versionen 5.32.0 (Amazon EMR 5.x-Serie) und 6.2.0 (Amazon EMR 6.x-Serie) und höher.

  • Wenn Sie Debuggen Sie Amazon, EMR das auf EC2 Amazon-Jobs ausgeführt wird, funktionieren die Links zur Spark-Benutzeroberfläche auf dem Cluster möglicherweise nicht oder werden nicht angezeigt. Um die Links zu regenerieren, erstellen Sie eine neue Notebook-Zelle und führen Sie den %%info-Befehl aus.

  • Jupyter Enterprise Gateway bereinigt in den folgenden EMR Amazon-Release-Versionen keine inaktiven Kernel auf dem primären Knoten eines Clusters: 5.32.0, 5.33.0, 6.2.0 und 6.3.0. Kernel im Leerlauf verbrauchen Rechenressourcen und können dazu führen, dass Cluster mit langer Laufzeit ausfallen. Mit dem folgenden Beispielskript können Sie die Kernelbereinigung im Leerlauf für Jupyter Enterprise Gateway konfigurieren. Sie können Connect zum primären EMR Amazon-Cluster-Knoten her, indem Sie SSH oder das Skript als Schritt einreichen. Weitere Informationen finden Sie unter Befehle und Skripts auf einem EMR Amazon-Cluster ausführen.

    #!/bin/bash sudo tee -a /emr/notebook-env/conf/jupyter_enterprise_gateway_config.py << EOF c.MappingKernelManager.cull_connected = True c.MappingKernelManager.cull_idle_timeout = 10800 c.MappingKernelManager.cull_interval = 300 EOF sudo systemctl daemon-reload sudo systemctl restart jupyter_enterprise_gateway
  • Wenn Sie eine automatische Terminierungsrichtlinie mit den EMR Amazon-Versionen 5.32.0, 5.33.0, 6.2.0 oder 6.3.0 verwenden, EMR markiert Amazon einen Cluster als inaktiv und kann den Cluster automatisch beenden, auch wenn Sie einen aktiven Python3-Kernel haben. Das liegt daran, dass bei der Ausführung eines Python3-Kernels kein Spark-Job auf dem Cluster gesendet wird. Um die automatische Terminierung mit einem Python3-Kernel zu verwenden, empfehlen wir die Verwendung von EMR Amazon-Version 6.4.0 oder höher. Weitere Informationen zum Auto-Beenden finden Sie unter Verwenden einer automatischen Terminierungsrichtlinie für die EMR Amazon-Clusterbereinigung.

  • Wenn Sie %%display einen Spark DataFrame in einer Tabelle anzeigen, können sehr breite Tabellen gekürzt werden. Sie können mit der rechten Maustaste auf die Ausgabe klicken und Neue Ansicht für Ausgabe erstellen auswählen, um eine scrollbare Ansicht der Ausgabe zu erhalten.

  • Wenn Sie einen Spark-basierten Kernel wie PySpark Spark oder SparkR starten, wird eine Spark-Sitzung gestartet, und wenn Sie eine Zelle in einem Notizbuch ausführen, werden Spark-Jobs in dieser Sitzung in die Warteschlange gestellt. Wenn Sie eine laufende Zelle unterbrechen, wird der Spark-Auftrag weiter ausgeführt. Um den Spark-Auftrag zu beenden, sollten Sie die Cluster-interne Spark-Benutzeroberfläche verwenden. Weitere Informationen zur Verbindung mit einer Spark-Benutzeroberfläche finden Sie unter Debuggen Sie Anwendungen und Jobs mit Studio EMR.

  • Die Verwendung von Amazon EMR Studio Workspaces als Root-Benutzer in an AWS-Konto verursacht einen 403: Forbidden Fehler. Dies liegt daran, dass die Jupyter Enterprise Gateway-Konfiguration in Amazon dem EMR Root-Benutzer keinen Zugriff gewährt. Wir empfehlen, den Root-Benutzer nicht für Ihre täglichen Aufgaben zu verwenden. Weitere Authentifizierungsoptionen finden Sie unter AWS Identity and Access Management Für Amazon EMR.

Feature-Einschränkungen

Amazon EMR Studio unterstützt die folgenden EMR Amazon-Funktionen nicht:

  • Anhängen und Ausführen von Jobs auf EMR Clustern mit einer Sicherheitskonfiguration, die die Kerberos-Authentifizierung spezifiziert

  • Cluster mit mehreren Primärknoten

  • Cluster, die EC2 Amazon-Instances verwenden, die auf AWS Graviton2 für Amazon EMR 6.x-Versionen unter 6.9.0 und 5.x-Versionen unter 5.36.1 basieren

Die folgenden Features werden von einem Studio, das die Verbreitung vertrauenswürdiger Identitäten verwendet, nicht unterstützt:

  • Cluster EMR ohne Vorlage erstellen.

  • EMRServerlose Anwendungen verwenden.

  • Amazon EMR auf EKS Clustern starten.

  • Verwenden einer Laufzeitrolle.

  • Aktivierung der SQL Explorer- oder Workspace-Zusammenarbeit.

Servicebeschränkungen für EMR Studio

In der folgenden Tabelle sind die Dienstlimits für EMR Studio aufgeführt.

Item Limit
EMRStudios Maximal 100 pro AWS Konto
Subnetze Jedem EMR Studio sind maximal 5 zugeordnet
IAMIdentity Center-Gruppen Jedem EMR Studio sind maximal 5 zugewiesen
IAMIdentity Center-Benutzer Jedem EMR Studio sind maximal 100 zugewiesen