ステップ 1: テスト環境を作成するステップ 2: 新しい Amazon EMRクラスターを起動するステップ 3: ノートブックをクラスターに接続するステップ 4: リソースをクリーンアップする

クイックスタート: Studio で Amazon EMRクラスターを起動する SageMaker サンドボックスドメインを作成する

このセクションでは、Amazon SageMaker Studio で完全なテスト環境のクイックセットアップについて説明します。ユーザーが Studio から直接新しい Amazon EMRクラスターを起動できるようにする新しい Studio ドメインを作成します。ステップでは、Amazon EMRクラスターに接続して実行を開始できるノートブックの例を示します。Spark ワークロード。このノートブックを使用して、Amazon Spark 分散処理と OpenSearch ベクトルデータベースを使用して、取得拡張生成システム (RAG) EMR を構築します。

注記

開始するには、管理者アクセス許可を持つ AWS Identity and Access Management （IAM) ユーザーアカウントを使用して AWS マネジメントコンソールにサインインします。アカウントにサインアップ AWS し、管理アクセス権を持つユーザーを作成する方法については、「」を参照してくださいAmazon の SageMaker 前提条件を完了する。

Studio テスト環境をセットアップして実行を開始するには Spark ジョブ：

ステップ 1: Studio で Amazon EMRクラスターを起動するための SageMaker ドメインを作成する
ステップ 2: Studio UI から新しい Amazon EMRクラスターを起動する
ステップ 3: JupyterLab ノートブックを Amazon EMRクラスターに接続する
ステップ 4: AWS CloudFormation スタックをクリーンアップする

ステップ 1: Studio で Amazon EMRクラスターを起動するための SageMaker ドメインを作成する

次のステップでは、 AWS CloudFormation スタックを適用して新しい SageMakerドメインを自動的に作成します。また、スタックはユーザープロファイルを作成し、必要な環境とアクセス許可を設定します。 SageMaker ドメインは、Studio から Amazon EMRクラスターを直接起動できるように設定されています。この例では、Amazon EMRクラスターは認証 SageMaker なしと同じ AWS アカウントで作成されます。Kerberos などのさまざまな認証方法をサポートする追加の AWS CloudFormation スタックは、 getting_started GitHub リポジトリにあります。

注記

SageMaker では、 AWS アカウントごとに AWS リージョンデフォルトで 5 Studio ドメインが許可されます。スタックを作成する前に、アカウントでリージョンにドメインが 4 つ以下であることを確認します。

Studio から Amazon EMRクラスターを起動するための SageMaker ドメインを設定するには、次の手順に従います。

sagemaker-studio-emr GitHub リポジトリからこのAWS CloudFormation テンプレートの raw ファイルをダウンロードします。
AWS CloudFormation コンソールに移動する: https://console.aws.amazon.com/cloudformation
スタックの作成を選択し、ドロップダウンメニューから新しいリソース (標準) を選択します。
ステップ 1：
1. テンプレートの準備セクションで、既存のテンプレートの選択 を選択します。
2. [テンプレートの指定] セクションで、[テンプレートファイルのアップロード] を選択します。
3. ダウンロードした AWS CloudFormation テンプレートをアップロードし、次へを選択します。
ステップ 2 で、スタック名を入力しSageMakerDomainName、次へを選択します。
ステップ 3 で、すべてのデフォルト値を保持し、次へを選択します。
ステップ 4 で、チェックボックスをオンにしてリソースの作成を確認し、スタックの作成 を選択します。これにより、アカウントとリージョンに Studio ドメインが作成されます。

ステップ 2: Studio UI から新しい Amazon EMRクラスターを起動する

次の手順では、Studio UI から新しい Amazon EMRクラスターを作成します。

で SageMaker コンソールに移動https://console.aws.amazon.com/sagemaker/し、左側のメニューでドメインを選択します。
ドメイン名 GenerativeAIDomain をクリックして、ドメインの詳細ページを開きます。
ユーザープロファイルから Studio を起動しますgenai-user。
左側のナビゲーションペインで、Data に移動し、Amazon EMR Clusters に移動します。
Amazon EMRクラスターページで、「の作成」を選択します。 AWS CloudFormation スタックによって作成されたテンプレート SageMaker Studio Domain No Auth EMR を選択し、Next を選択します。
新しい Amazon EMRクラスターの名前を入力します。必要に応じて、コアノードとマスターノードのインスタンスタイプ、アイドルタイムアウト、コアノードの数などの他のパラメータを更新します。
リソースの作成を選択して、新しい Amazon EMRクラスターを起動します。

Amazon EMRクラスターを作成したら、EMRクラスターページのステータスに従います。ステータスがに変わるとRunning/Waiting、Amazon EMRクラスターは Studio で使用できるようになります。

ステップ 3: JupyterLab ノートブックを Amazon EMRクラスターに接続する

次の手順では、のノートブック JupyterLab を実行中の Amazon EMRクラスターに接続します。この例では、ノートブックをインポートして、Amazon Spark 分散処理と OpenSearch ベクトルデータベースを使用して取得拡張生成 (RAG) EMR システムを構築できます。

起動 JupyterLab

Studio からアプリケーションを起動します JupyterLab 。
プライベートスペースを作成する

JupyterLab アプリケーションのスペースを作成していない場合は、 JupyterLab スペースの作成 を選択します。スペースの名前を入力し、スペースをプライベート として保持します。他のすべての設定をデフォルト値のままにして、スペースの作成 を選択します。

それ以外の場合は、 JupyterLab スペースを実行してアプリケーションを起動 JupyterLabします。
LLM と埋め込みモデルをデプロイして推論する
- トップメニューから、ファイル 、新しい 、ターミナルを選択します。
- ターミナルで、次のコマンドを実行します。
```
wget --no-check-certificate https://raw.githubusercontent.com/aws-samples/sagemaker-studio-foundation-models/main/lab-00-setup/Lab_0_Warm_Up_Deploy_EmbeddingModel_Llama2_on_Nvidia.ipynb
mkdir AWSGuides
cd AWSGuides
wget --no-check-certificate https://raw.githubusercontent.com/aws-samples/sagemaker-studio-foundation-models/main/lab-03-rag/AWSGuides/AmazonSageMakerDeveloperGuide.pdf
wget --no-check-certificate https://raw.githubusercontent.com/aws-samples/sagemaker-studio-foundation-models/main/lab-03-rag/AWSGuides/EC2DeveloperGuide.pdf
wget --no-check-certificate https://raw.githubusercontent.com/aws-samples/sagemaker-studio-foundation-models/main/lab-03-rag/AWSGuides/S3DeveloperGuide.pdf
```
  これにより、Lab_0_Warm_Up_Deploy_EmbeddingModel_Llama2_on_Nvidia.ipynbノートブックがローカルディレクトリに取得され、3 つのPDFファイルがローカルAWSGuidesフォルダにダウンロードされます。
- を開きlab-00-setup/Lab_0_Warm_Up_Deploy_EmbeddingModel_Llama2_on_Nvidia.ipynb、Python 3 (ipykernel)カーネルを保持し、各セルを実行します。
  
  警告
  Llama 2 ライセンス契約セクションで、続行するEULA前に Llama2 を必ず承諾してください。
  ノートブックは、推論ml.g5.2xlargeのために all-MiniLM-L6-v2 Modelsに 2 つのモデルLlama 2とをデプロイします。
  
  モデルのデプロイとエンドポイントの作成には時間がかかる場合があります。
メインノートブックを開く

で JupyterLabターミナルを開き、次のコマンドを実行します。
```
cd ..
wget --no-check-certificate https://raw.githubusercontent.com/aws-samples/sagemaker-studio-foundation-models/main/lab-03-rag/Lab_3_RAG_on_SageMaker_Studio_using_EMR.ipynb
```
の左側のパネルに追加のLab_3_RAG_on_SageMaker_Studio_using_EMR.ipynbノートブックが表示されます JupyterLab。
PySpark カーネルを選択する

Lab_3_RAG_on_SageMaker_Studio_using_EMR.ipynb ノートブックを開き、SparkMagic PySparkカーネルを使用していることを確認します。ノートブックの右上でカーネルを切り替えることができます。現在のカーネル名を選択してカーネル選択モーダルを開き、を選択しますSparkMagic PySpark。
ノートブックをクラスターに接続する
1. ノートブックの右上で、クラスター を選択します。このアクションは、アクセス許可を持つ実行中のすべてのクラスターを一覧表示するモーダルウィンドウを開きます。
2. クラスターを選択し、接続を選択します。新しい認証情報タイプの選択モーダルウィンドウが開きます。
3. 認証情報なし を選択し、接続を選択します。
4. ノートブックセルは自動的に入力され、実行されます。ノートブックセルは、Amazon EMRクラスターに接続する機能を提供するsagemaker_studio_analytics_extension.magics拡張機能をロードします。次に、%sm_analyticsマジックコマンドを使用して Amazon EMRクラスターと Spark アプリケーションへの接続を開始します。
  注記
  Amazon EMRクラスターへの接続文字列の認証タイプがに設定されていることを確認しますNone。これは、次の例--auth-type Noneの値で示されています。必要に応じてフィールドを変更できます。
```
%load_ext sagemaker_studio_analytics_extension.magics
%sm_analytics emr connect --verify-certificate False --cluster-id your-cluster-id --auth-type None --language python 
```
5. 接続を正常に確立すると、接続セルの出力メッセージに、クラスター ID、YARNアプリケーション ID、へのリンクなどSparkSessionの詳細が表示されます。Spark をモニタリングする UI Spark ジョブ。

Lab_3_RAG_on_SageMaker_Studio_using_EMR.ipynb ノートブックを使用する準備ができました。この例では、 LangChain とを使用してRAGシステムを構築するための分散 PySpark ワークロードを実行します OpenSearch。

ステップ 4: AWS CloudFormation スタックをクリーンアップする

完了したら、2 つのエンドポイントを終了し、 AWS CloudFormation スタックを削除して、継続的な料金が発生しないようにしてください。スタックを削除すると、スタックによってプロビジョニングされたすべてのリソースがクリーンアップされます。

AWS CloudFormation スタックの完了時にスタックを削除するには

AWS CloudFormation コンソールに移動する: https://console.aws.amazon.com/cloudformation
削除するスタックを選択します。名前で検索することも、スタックのリストで検索することもできます。
削除ボタンをクリックしてスタックの削除を確定し、再度削除して、スタックによって作成されたすべてのリソースが削除されることを確認します。

スタックの削除が完了するまで待ちます。これには数分かかる場合があります。 AWS CloudFormation は、スタックテンプレートで定義されているすべてのリソースを自動的にクリーンアップします。
スタックによって作成されたすべてのリソースが削除されていることを確認します。例えば、Amazon EMRクラスターの残りを確認します。

モデルのAPIエンドポイントを削除するには

SageMaker コンソールに移動します。 https://console.aws.amazon.com/sagemaker/
左側のナビゲーションペインで、推論を選択し、次にエンドポイント を選択します。
エンドポイントを選択しhf-allminil6v2-embedding-ep、アクションドロップダウンリストから削除を選択します。エンドポイントのステップを繰り返しますmeta-llama2-7b-chat-tg-ep。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

Amazon を使用したデータ準備 EMR

管理者ガイド

クイックスタート: Studio で Amazon EMRクラスターを起動する SageMaker サンドボックスドメインを作成する

注記

Studio テスト環境をセットアップして実行を開始するには Spark ジョブ：

ステップ 1: Studio で Amazon EMRクラスターを起動するための SageMaker ドメインを作成する

注記

Studio から Amazon EMRクラスターを起動するための SageMaker ドメインを設定するには、次の手順に従います。

ステップ 2: Studio UI から新しい Amazon EMRクラスターを起動する

ステップ 3: JupyterLab ノートブックを Amazon EMRクラスターに接続する

起動 JupyterLab

プライベートスペースを作成する

LLM と埋め込みモデルをデプロイして推論する

警告

メインノートブックを開く

PySpark カーネルを選択する

ノートブックをクラスターに接続する

注記

ステップ 4: AWS CloudFormation スタックをクリーンアップする

AWS CloudFormation スタックの完了時にスタックを削除するには

モデルのAPIエンドポイントを削除するには

`PySpark` カーネルを選択する