Amazon EMR Notebooks の概要 - Amazon EMR

Amazon EMR Notebooks の概要

注記

EMR Notebooks は、コンソールで EMR Studio Workspace として使用できます。コンソールの [ワークスペースの作成] ボタンを使用すると、新しいノートブックを作成できます。EMR Notebooks ユーザーが Workspace にアクセスしたり作成したりするには、追加の IAM ロール権限が必要です。詳細については、「Amazon EMR Notebooks are Amazon EMR Studio Workspaces in the console」および「Amazon EMR console」を参照してください。

Amazon EMR Notebooks を Apache Spark を実行する Amazon EMR クラスターと共に使用し、Amazon EMR コンソール内で Jupyter Notebook および JupyterLab のインターフェイスを作成して開くことができます。EMR Notebooks は、クエリとコードを実行するために使用できる「サーバーレス」のノートブックです。従来のノートブックとは異なり、EMR Notebooks の内容 (ノートブックセル内の方程式、クエリ、モデル、コード、説明テキスト) はクライアントで実行されます。コマンドは EMR クラスター上のカーネルを使用して実行されます。ノートブックの内容は、耐久性と柔軟な再利用のために、クラスターのデータとは別に Amazon S3 にも保存されます。

クラスターを起動して EMR notebooks を分析のためにアタッチしたら、クラスターを終了することができます。また、実行中のクラスターにアタッチされているノートブックを閉じて、別のものに切り替えることもできます。複数のユーザーがノートブックを同じクラスターに同時にアタッチして、Amazon S3 でノートブックファイルを互いに共有することができます。これらの機能を使用すると、クラスターをオンデマンドで実行してコストを削減し、別のクラスターやデータセットにノートブックを再設定する時間を節約できます。

また、Amazon EMR コンソールを使用することなく、Amazon EMR API を使用してプログラムで EMR Notebooks を実行することもできます (「ヘッドレス実行」)。EMR notebooks に、parameters タグを持つセルを含める必要があります。このセルにより、スクリプトで新しい入力値をノートブックに渡すことが可能になります。パラメータ化されたノートブックは、異なる入力値セットで再利用できます。新しい入力値で編集して実行するために、同じノートブックのコピーを作成する必要はありません。Amazon EMR は、パラメータ化されたノートブックの実行ごとに、S3 に出力ノートブックを作成して保存します。EMR notebooks の API コードの例については、「EMR Notebooks のプログラムで実行するサンプルコマンド」を参照してください。

重要

EMR Notebooks 機能は、Amazon EMR リリース 5.18.0 以降を使用するクラスターをサポートします。Amazon EMR の最新バージョン、または 5.30.0、5.32.0、または 6.2.0 以上を使用するクラスターでは EMR Notebooks を使用することをお勧めします。これらのリリースでは、Jupyter カーネルが Jupyter インスタンスではなくアタッチされたクラスターで実行されます。これにより、パフォーマンスが向上し、カーネルとライブラリのカスタマイズ機能が強化されています。詳細については、「クラスターのリリースバージョンによる機能の違い」を参照してください。

Amazon S3 ストレージの対象料金と Amazon EMR クラスターの対象料金が適用されます。