AWS Glue インタラクティブセッションを使用してデータを準備する - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

AWS Glue インタラクティブセッションを使用してデータを準備する

AWS Glue インタラクティブセッションは、データサイエンティストとデータエンジニアがデータ準備および分析アプリケーションを迅速に構築、テスト、実行するために使用できるオンデマンドのサーバーレス Apache Spark ランタイム環境です。

Studio または Studio Classic で JupyterLab ノートブックを起動することで、 AWS Glue インタラクティブセッションを開始できます。ノートブックを起動するときは、組み込み Glue PySpark and Rayまたは Glue Spark カーネルを選択します。これにより、インタラクティブなサーバーレス Spark セッションが自動的に開始されます。コンピューティングクラスターやインフラストラクチャをプロビジョニングまたは管理する必要はありません。初期化後、Studio または Studio Classic ノートブック内で Spark を使用して AWS Glue Data Catalog、 を調べ、複雑なクエリを実行し、データをインタラクティブに分析して準備できます。その後、準備されたデータを使用して、 内の専用 ML ツールを使用してモデルを構築、トレーニング、調整、デプロイできます SageMaker。

Studio または Studio Classic で AWS Glue インタラクティブセッションを開始する前に、適切なロールとポリシーを設定する必要があります。さらに、ストレージ Amazon S3 バケットなどの追加のリソースへのアクセスを提供する必要がある場合があります。必要なIAMポリシーの詳細については、「」を参照してくださいStudio または Studio Classic での AWS Glue インタラクティブセッションのアクセス許可

Studio と Studio Classic は AWS Glue インタラクティブセッションのデフォルト設定を提供しますが、 AWS Glueの Jupyter マジックコマンドの完全なカタログを使用して環境をさらにカスタマイズできます。 AWS Glue インタラクティブセッションで使用できるデフォルトおよび追加の Jupyter マジックについては、「」を参照してくださいStudio または Studio Classic で AWS Glue インタラクティブセッションを設定する

  • Studio Classic ユーザーが AWS Glue インタラクティブセッションを開始する場合、次のイメージとカーネルから選択できます。

    • イメージ: SparkAnalytics 1.0SparkAnalytics 2.0

    • カーネル: Glue Python [PySpark and Ray]および Glue Spark

  • Studio ユーザーの場合は、デフォルトのSageMaker ディストリビューションイメージを使用して、 Glue Python [PySpark and Ray]またはGlue Sparkカーネルを選択します。