Anforderungen, Unterschiede in den Release-Versionen und Sicherheit für EMR Notebooks - Amazon EMR

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Anforderungen, Unterschiede in den Release-Versionen und Sicherheit für EMR Notebooks

Anmerkung

EMRNotebooks sind in der Konsole als EMR Studio-Workspaces verfügbar. Mit der Schaltfläche „Arbeitsbereich erstellen“ in der Konsole können Sie neue Notizbücher erstellen. Um auf Workspaces zuzugreifen oder diese zu erstellen, benötigen EMR Notebook-Benutzer zusätzliche IAM Rollenberechtigungen. Weitere Informationen finden Sie unter Amazon EMR Notebooks sind Amazon EMR Studio-Workspaces in der Konsole und EMRAmazon-Konsole.

Beachten Sie bei der Erstellung von Clustern und der Entwicklung von Lösungen mithilfe von EMR Notebooks die folgenden Anforderungen, Unterschiede bei den Release-Versionen, Sicherheitsinformationen und andere Überlegungen.

Cluster-Voraussetzungen

  • Amazon EMR Block Public Access aktivieren — Durch den eingehenden Zugriff auf einen Cluster können Cluster-Benutzer Notebook-Kernel ausführen. Stellen Sie sicher, dass nur autorisierte Benutzer auf den Cluster zugreifen können. Wir empfehlen dringend, den Block Public Access aktiviert zu lassen und den eingehenden SSH Datenverkehr nur auf vertrauenswürdige Quellen zu beschränken. Weitere Informationen erhalten Sie unter Verwenden Sie Amazon, um EMR den öffentlichen Zugriff zu blockieren und Steuern Sie den Netzwerkverkehr mit Sicherheitsgruppen für Ihren EMR Amazon-Cluster.

  • Kompatiblen Cluster verwenden – Ein Cluster, der an ein Notebook angefügt ist, muss die folgenden Voraussetzungen erfüllen:

    • Es werden nur Cluster unterstützt, EMR die mit Amazon erstellt wurden. Sie können unabhängig innerhalb von Amazon einen Cluster erstellen EMR und dann ein EMR Notebook anhängen, oder Sie können einen kompatiblen Cluster erstellen, wenn Sie ein EMR Notebook erstellen.

    • Es werden nur Cluster unterstützt, die mit der EMR Amazon-Version 5.18.0 und höher erstellt wurden. Siehe Unterschiede in den Funktionalitäten nach Cluster-Release-Version.

    • Cluster, die mithilfe von EC2 Amazon-Instances mit AMD EPYC Prozessoren erstellt wurden — zum Beispiel die Instance-Typen m5a.* und r5a.* — werden nicht unterstützt.

    • EMRNotebooks funktionieren nur mit VisibleToAllUsers true Clustern, die mit der Einstellung auf erstellt wurden. VisibleToAllUsersist true standardmäßig.

    • Der Cluster muss innerhalb eines EC2 - gestartet werdenVPC. Öffentliche und private Subnetze werden unterstützt. Die EC2 -Classic-Plattform wird nicht unterstützt.

    • Hadoop, Spark und Livy müssen auf dem Cluster installiert sein. Andere Anwendungen können installiert werden, aber EMR Notebooks unterstützt derzeit nur Spark-Cluster.

      Wichtig

      Für EMR Amazon-Release-Versionen 5.32.0 und höher oder 6.2.0 und höher muss auf Ihrem Cluster auch die Jupyter Enterprise Gateway-Anwendung ausgeführt werden, um mit Notebooks zu funktionieren. EMR

    • Cluster mit Kerberos-Authentifizierung werden nicht unterstützt.

    • Mit integrierte Cluster AWS Lake Formation unterstützen nur die Installation von Bibliotheken für Notebooks. Die Installation von Kerneln und Bibliotheken auf dem Cluster wird nicht unterstützt.

    • Cluster mit mehreren Primärknoten werden nicht unterstützt.

    • Cluster, die EC2 Amazon-Instances verwenden, die auf AWS Graviton2 basieren, werden nicht unterstützt.

Unterschiede in den Funktionalitäten nach Cluster-Release-Version

Wir empfehlen dringend, EMR Notebooks mit Clustern zu verwenden, die mit den EMR Amazon-Release-Versionen 5.30.0, 5.32.0 oder höher oder 6.2.0 oder höher erstellt wurden. Mit diesen Versionen führt EMR Notebooks Kernel auf dem angeschlossenen EMR Amazon-Cluster aus. Kernel und Bibliotheken können direkt auf dem Cluster-Primärknoten installiert werden. Die Verwendung von EMR Notebooks mit diesen Cluster-Versionen hat die folgenden Vorteile:

  • Verbesserte Leistung — Notebook-Kernel werden auf Clustern mit von Ihnen ausgewählten EC2 Instance-Typen ausgeführt. Frühere Versionen führen Kernel auf einer spezialisierten Instance aus, die nicht in der Größe geändert, auf die nicht zugegriffen und die nicht angepasst werden kann.

  • Möglichkeit zum Hinzufügen und Anpassen von Kerneln – Sie können eine Verbindung zum Cluster herstellen, um Kernel-Pakete mit conda und pip zu installieren. Darüber hinaus wird die pip-Installation mithilfe von Terminal-Befehlen innerhalb von Notebook-Zellen unterstützt. In früheren Versionen waren nur vorinstallierte Kernel verfügbar (Python PySpark, Spark und SparkR). Weitere Informationen finden Sie unter Installieren von Kernels und Python-Bibliotheken auf einem Cluster-Primärknoten.

  • Möglichkeit, Python-Bibliotheken zu installieren – Sie können Python-Bibliotheken mit conda und pip auf dem Cluster-Primärknoten installieren. Wir empfehlen die Verwendung von conda. In früheren Versionen wurden nur Bibliotheken für für Notebooks unterstützt. PySpark

Unterstützte EMR Notebooks-Funktionen nach Cluster-Version
Cluster-Version Bibliotheken für Notebooks PySpark Kernel-Installation auf dem Cluster Installation der Python-Bibliothek auf Primärknoten

Früher als 5.18.0

EMRNotebooks werden nicht unterstützt

5.18.0–5.25.0

Nein

Nein

Nein

5.26.0–5-29.0

Ja

Nein

Nein

5.30.0

Ja

Ja

Ja

6.0.0

Nein

Nein

Nein

5.32.0 und höher und 6.2.0 und höher Ja Ja Ja

Grenzwerte für gleichzeitig angeschlossene Notebooks EMR

Wenn Sie einen Cluster erstellen, der Notebooks unterstützt, sollten Sie den EC2 Instanztyp des primären Clusterknotens berücksichtigen. Die Speicherbeschränkungen dieser EC2 Instanz bestimmen die Anzahl der Notebooks, die gleichzeitig bereit sein können, Code und Abfragen auf dem Cluster auszuführen.

EC2Instanztyp des primären Knotens Anzahl der EMR Notebooks

*.medium

2

*.large

4

*.xlarge

8

*.2xlarge

16

*.4xlarge

24

*.8xlarge

24

*.16xlarge

24

Jupyter Notebook und Python-Versionen

EMRAuf Notebooks werden Jupyter Notebook Version 6.0.2 und Python 3.6.5 ausgeführt, unabhängig von der EMR Amazon-Release-Version des angehängten Clusters.

Sicherheitsüberlegungen

Verwenden verschlüsselter S3-Standorte

Wenn Sie einen verschlüsselten Speicherort in Amazon S3 zum Speichern von Notebook-Dateien angeben, müssen Sie die Servicerolle für EMR Notebooks als Schlüsselbenutzer einrichten. Die Standard-Servicerolle ist EMR_Notebooks_DefaultRole. Wenn Sie einen AWS KMS Schlüssel für die Verschlüsselung verwenden, finden Sie weitere Informationen unter Verwenden von Schlüsselrichtlinien im AWS Key Management Service Entwicklerhandbuch und AWS KMS im Support-Artikel zum Hinzufügen von Schlüsselbenutzern.

Verwendung von Cookies mit Hosting-Domains

Um die Sicherheit der Anwendungen außerhalb der Konsole zu erhöhen, die Sie möglicherweise mit Amazon verwendenEMR, werden die Anwendungshosting-Domains in der Liste der öffentlichen Suffixe () registriert. PSL Zu diesen Hosting-Domains gehören beispielsweise die folgenden: emrstudio-prod.us-east-1.amazonaws.com, emrnotebooks-prod.us-east-1.amazonaws.com, emrappui-prod.us-east-1.amazonaws.com. Aus Sicherheitsgründen empfehlen wir Ihnen, Cookies mit einem __Host--Präfix zu verwenden, falls Sie jemals sensible Cookies im Standard-Domainnamen einrichten müssen. Dies trägt dazu bei, Ihre Domain vor standortübergreifenden Anforderungsfälschungsversuchen zu schützen (). CSRF Weitere Informationen finden Sie hier: Set-CookieSeite im Mozilla Developer Network.