Installieren Sie Kernel und Bibliotheken in einem EMR Studio-Arbeitsbereich - Amazon EMR

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Installieren Sie Kernel und Bibliotheken in einem EMR Studio-Arbeitsbereich

Jeder Amazon EMR Studio Workspace wird mit einer Reihe vorinstallierter Bibliotheken und Kernel geliefert.

Kernel und Bibliotheken auf Clustern, die auf Amazon laufen EC2

Sie können die Umgebung für EMR Studio auch auf folgende Weise anpassen, wenn Sie EMR Cluster verwenden, die auf Amazon ausgeführt werdenEC2:

  • Jupyter-Notebook-Kernel und Python-Bibliotheken auf einem Cluster-Primärknoten installieren – Wenn Sie Bibliotheken mit dieser Option installieren, teilen sich alle Workspaces, die demselben Cluster zugeordnet sind, diese Bibliotheken gemeinsam. Sie können Kernel oder Bibliotheken von einer Notebook-Zelle aus installieren oder während Sie mit SSH dem primären Knoten eines Clusters verbunden sind.

  • Verwenden Sie Bibliotheken für Notebooks – Wenn Workspace-Benutzer Bibliotheken von einer Notebook-Zelle aus installieren und verwenden, sind diese Bibliotheken nur für dieses Notebook verfügbar. Mit dieser Option können verschiedene Notebooks, die denselben Cluster verwenden, arbeiten, ohne sich Gedanken über widersprüchliche Bibliotheksversionen machen zu müssen.

EMRStudio-Arbeitsbereiche haben dieselbe grundlegende Architektur wie EMR Notebooks. Sie können Jupyter Notebook-Kernel und Python-Bibliotheken mit EMR Studio genauso installieren und verwenden wie mit Notebooks. EMR Detaillierte Anweisungen finden Sie unter Installieren und Verwenden von Kerneln und Bibliotheken.

Kernel und Bibliotheken bei Amazon EMR auf Clustern EKS

Amazon EMR on EKS Clusters umfasst die Kernel PySpark und Python 3.7 mit einer Reihe vorinstallierter Bibliotheken. Amazon EMR on EKS unterstützt die Installation zusätzlicher Bibliotheken oder Cluster nicht.

EMRAuf jedem Amazon EKS On-Cluster sind das folgende Python und die folgenden PySpark Bibliotheken installiert:

  • Python – boto3, cffi, future, ggplot, jupyter, kubernetes, matplotlib, numpy, pandas, plotly, pycryptodomex, py4j, requests, scikit-learn, scipy, seaborn

  • PySpark – ggplot, jupyter, matplotlib, numpy, pandas, plotly, pycryptodomex, py4j, requests, scikit-learn, scipy, seaborn

Kernel und Bibliotheken für EMR serverlose Anwendungen

In jeder EMR serverlosen Anwendung sind das folgende Python und die folgenden PySpark Bibliotheken installiert:

  • Python – ggplot, matplotlib, numpy, pandas, plotly, bokeh, scikit-learn, scipy, seaborn

  • PySpark – ggplot, matplotlib,numpy, pandas, plotly, bokeh, scikit-learn, scipy, seaborn