EMR Studio Workspace にカーネルとライブラリをインストールする - Amazon EMR

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

EMR Studio Workspace にカーネルとライブラリをインストールする

各 Amazon EMR Studio Workspace には、プリインストールされたライブラリとカーネルのセットが付属しています。

Amazon で実行されるクラスター上のカーネルとライブラリ EC2

Amazon で実行されているEMRクラスターを使用する場合は、以下の方法で EMR Studio の環境をカスタマイズすることもできますEC2。

  • クラスタープライマリノードに Jupyter Notebook カーネルと Python ライブラリをインストールする - このオプションを使用してライブラリをインストールすると、同じクラスターにアタッチされたすべての Workspace がそれらのライブラリを共有します。カーネルまたはライブラリは、ノートブックセル内から、または を使用してクラスターのプライマリノードに接続している間SSHにインストールできます。

  • ノートブックのスコープのライブラリを使用する - Workspace ユーザーがノートブックセル内からライブラリをインストールして使用する場合、それらのライブラリはそのノートブックのみで使用できます。このオプションを使用すると、ライブラリバージョンの競合を心配することなく、同じクラスターを使用するさまざまなノートブックを動作させることができます。

EMR Studio Workspace の基盤となるアーキテクチャはノートブックと同じEMRです。Jupyter Notebook カーネルと Python ライブラリは、ノートブックと同じ方法で EMR Studio EMR でインストールして使用できます。手順については、カーネルとライブラリのインストールと使用 を参照してください。

EMR EKS クラスター上の Amazon のカーネルとライブラリ

EKS クラスターEMR上の Amazon には、 PySpark およびプリインストールされたライブラリのセットを含む Python 3.7 カーネルが含まれています。EMR の Amazon EKS は、追加のライブラリまたはクラスターのインストールをサポートしていません。

EKS クラスターEMR上の各 Amazon には、次の Python と PySpark ライブラリがインストールされています。

  • Python – boto3, cffi, future, ggplot, jupyter, kubernetes, matplotlib, numpy, pandas, plotly, pycryptodomex, py4j, requests, scikit-learn, scipy, seaborn

  • PySpark – ggplot, jupyter, matplotlib, numpy, pandas, plotly, pycryptodomex, py4j, requests, scikit-learn, scipy, seaborn

EMR サーバーレスアプリケーションのカーネルとライブラリ

各 EMR Serverless アプリケーションには、次の Python と PySpark ライブラリがインストールされています。

  • Python – ggplot, matplotlib, numpy, pandas, plotly, bokeh, scikit-learn, scipy, seaborn

  • PySpark – ggplot, matplotlib,numpy, pandas, plotly, bokeh, scikit-learn, scipy, seaborn