AWS Glue インタラクティブセッションを使用したデータ準備

AWS Glue インタラクティブセッションは、データレイクやデータパイプラインに保存するデータを収集、変換、クリーンアップ、準備するために使用できるサーバーレスサービスです。 AWS Glue インタラクティブセッションは、オンデマンドのサーバーレス Apache Spark ランタイム環境を提供するため、複雑なコンピューティングクラスターインフラストラクチャをプロビジョンして管理する必要なく、専用のデータ処理ユニット (DPU) 上で数秒で初期化できます。初期化後、Studio ノートブックまたは Studio Classic ノートブックで、 AWS Glue データカタログの参照、大規模なクエリの実行 AWS Lake Formation、によって管理されるデータへのアクセス、Spark を使用したインタラクティブな分析と準備を行うことができます。その後、準備したデータを使用して、SageMaker Studio または Studio Classic 内の専用の ML ツールを使用してモデルをトレーニング、調整、デプロイできます。設定可能性と柔軟性を中程度に制御するサーバーレス Spark サービスが必要な場合は、データ準備ワークロードの AWS Glue インタラクティブセッションを検討する必要があります。

Studio または Studio Classic で JupyterLab ノートブックを起動することで、 AWS Glue インタラクティブセッションを開始できます。ノートブックを開始する際は、組み込みの Glue PySpark and Ray カーネルまたは Glue Spark カーネルを選択します。これにより、インタラクティブなサーバーレス Spark セッションが自動的に開始されます。コンピューティングクラスターやインフラストラクチャをプロビジョンしたり管理したりする必要はありません。初期化後、Studio ノートブックまたは Studio Classic ノートブック内からデータを探索して操作できます。

Studio または Studio Classic で AWS Glue インタラクティブセッションを開始する前に、適切なロールとポリシーを設定する必要があります。さらに、ストレージである Amazon S3 バケットなどの追加のリソースへのアクセスを提供する必要がある場合があります。必要な IAM ポリシーの設定の詳細については、「Studio または Studio Classic の AWS Glue インタラクティブセッションのアクセス許可」を参照してください。

Studio と Studio Classic は AWS Glue インタラクティブセッションのデフォルト設定を提供しますが、 AWS Glue Jupyter マジックコマンドの完全なカタログを使用して環境をさらにカスタマイズできます。 AWS Glue インタラクティブセッションで使用できるデフォルトおよび追加の Jupyter マジックについては、「」を参照してくださいStudio または Studio Classic で AWS Glue インタラクティブセッションを設定する。

Studio Classic ユーザーが AWS Glue インタラクティブセッションを開始する場合、次のイメージとカーネルから選択できます。
- イメージ: SparkAnalytics 1.0、SparkAnalytics 2.0
- カーネル: Glue Python [PySpark and Ray] と Glue Spark
Studio を使用する場合は、デフォルトの SageMaker Distribution イメージを使用して、Glue Python [PySpark and Ray] カーネルまたは Glue Spark カーネルを選択します。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

トラブルシューティング

AWS Glue インタラクティブセッションの開始方法