EMR Studio Workspace にカーネルとライブラリをインストールする - Amazon EMR

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

EMR Studio Workspace にカーネルとライブラリをインストールする

各 Amazon EMR Studio Workspace には、プリインストールされたライブラリとカーネルのセットが付属しています。

Amazon で実行されるクラスター上のカーネルとライブラリ EC2

Amazon で実行されているEMRクラスターを使用する場合は、以下の方法で EMR Studio の環境をカスタマイズすることもできますEC2。

  • クラスタープライマリノードに Jupyter Notebook カーネルと Python ライブラリをインストールする - このオプションを使用してライブラリをインストールすると、同じクラスターにアタッチされたすべての Workspace がそれらのライブラリを共有します。を使用して、ノートブックセル内から、またはクラスターのプライマリノードに接続している間SSHに、カーネルまたはライブラリをインストールできます。

  • ノートブックのスコープのライブラリを使用する - Workspace ユーザーがノートブックセル内からライブラリをインストールして使用する場合、それらのライブラリはそのノートブックのみで使用できます。このオプションを使用すると、ライブラリバージョンの競合を心配することなく、同じクラスターを使用するさまざまなノートブックを動作させることができます。

EMR Studio Workspace の基盤となるアーキテクチャはEMRノートブックと同じです。Jupyter Notebook カーネルと Python ライブラリは、ノートブックと同じ方法で EMR Studio EMR でインストールして使用できます。手順については、EMR Studio でカーネルとライブラリをインストールして使用する を参照してください。

EKS クラスター上の Amazon EMRのカーネルとライブラリ

EKS クラスターEMR上の Amazon には、 PySpark および Python 3.7 カーネルと一連のプリインストールライブラリが含まれています。EMR の Amazon EKSは、追加のライブラリまたはクラスターのインストールをサポートしていません。

EKS クラスターEMR上の各 Amazon には、次の Python と PySpark ライブラリがインストールされています。

  • Python – boto3, cffi, future, ggplot, jupyter, kubernetes, matplotlib, numpy, pandas, plotly, pycryptodomex, py4j, requests, scikit-learn, scipy, seaborn

  • PySpark – ggplot, jupyter, matplotlib, numpy, pandas, plotly, pycryptodomex, py4j, requests, scikit-learn, scipy, seaborn

EMR Serverless アプリケーションのカーネルとライブラリ

各 EMR Serverless アプリケーションには、次の Python と PySpark ライブラリがインストールされています。

  • Python – ggplot, matplotlib, numpy, pandas, plotly, bokeh, scikit-learn, scipy, seaborn

  • PySpark – ggplot, matplotlib,numpy, pandas, plotly, bokeh, scikit-learn, scipy, seaborn