Cookie の設定を選択する

当社は、当社のサイトおよびサービスを提供するために必要な必須 Cookie および類似のツールを使用しています。当社は、パフォーマンス Cookie を使用して匿名の統計情報を収集することで、お客様が当社のサイトをどのように利用しているかを把握し、改善に役立てています。必須 Cookie は無効化できませんが、[カスタマイズ] または [拒否] をクリックしてパフォーマンス Cookie を拒否することはできます。

お客様が同意した場合、AWS および承認された第三者は、Cookie を使用して便利なサイト機能を提供したり、お客様の選択を記憶したり、関連する広告を含む関連コンテンツを表示したりします。すべての必須ではない Cookie を受け入れるか拒否するには、[受け入れる] または [拒否] をクリックしてください。より詳細な選択を行うには、[カスタマイズ] をクリックしてください。

Amazon SageMaker AI を使用した Apache Spark

フォーカスモード
Amazon SageMaker AI を使用した Apache Spark - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon SageMaker AI Spark は、SageMaker AI を使用して Spark 機械学習 (ML) パイプラインを構築するのに役立つオープンソースの Spark ライブラリです。これにより、モデルのトレーニングやホスティングなどの Spark ML ステージと SageMaker AI ステージの統合が簡素化されます。SageMaker AI Spark の詳細については、SageMaker AI Spark GitHub リポジトリを参照してください。以下のトピックでは、SageMaker AI で Apache Spark を使用する方法について説明します。

SageMaker AI Spark ライブラリは Python と Scala で利用できます。SageMaker AI Spark を使用して、Spark クラスターorg.apache.spark.sql.DataFrameのデータフレームを使用して SageMaker AI でモデルをトレーニングできます。モデルトレーニングの後、SageMaker AI ホスティングサービスを使用してモデルをホストすることもできます。

SageMaker AI Spark ライブラリ にはcom.amazonaws.services.sagemaker.sparksdk、特に以下のクラスが用意されています。

  • SageMakerEstimator - org.apache.spark.ml.Estimator インターフェイスを拡張します。この推定器は、SageMaker AI でのモデルトレーニングに使用できます。

  • KMeansSageMakerEstimatorPCASageMakerEstimatorXGBoostSageMakerEstimator - SageMakerEstimator クラスを拡張します。

  • SageMakerModel - org.apache.spark.ml.Model クラスを拡張します。これは、SageMaker AI でのモデルのホスティングと推論の取得SageMakerModelに使用できます。

Python Spark (PySpark) ライブラリと Scala ライブラリの両方のソースコードは、SageMaker AI Spark GitHub リポジトリからダウンロードできます。

SageMaker AI Spark ライブラリのインストールと例については、SageMaker AI Spark for Scala の例「」または「」を参照してくださいSageMaker AI Spark for Python (PySpark) を使用するためのリソースの例

で Amazon EMR を使用して Spark クラスターを管理する場合は、 AWS 「Apache Spark」を参照してください。SageMaker AI での Amazon EMR の使用の詳細については、「」を参照してくださいAmazon EMR を使用したデータ準備

Apache Spark アプリケーションを SageMaker AI と統合する

Apache Spark アプリケーションを SageMaker AI と統合する手順の概要を次に示します。

  1. 使い慣れている Apache Spark ライブラリを使用してデータの事前処理を続行します。データセットは Spark クラスター内で DataFrame のまま残ります。データを DataFrame にロードします。org.apache.spark.ml.linalg.VectorDoublesfeatures 列とオプションの label 列が Double​ 型の値を持つように、前処理を行います。

  2. SageMaker AI Spark ライブラリの推定器を使用してモデルをトレーニングします。例えば、モデルトレーニングに SageMaker AI が提供する k-means アルゴリズムを選択した場合は、 KMeansSageMakerEstimator.fitメソッドを呼び出します。

    DataFrame を入力として指定します。推定器は SageMakerModel オブジェクトを返します。

    注記

    SageMakerModelorg.apache.spark.ml.Model を拡張します。

    fit メソッドは、次のような処理を実行します。

    1. 入力 DataFrame を protobuf 形式に変換します。これは、入力 DataFrame から featureslabel 列を選択することで実行できます。次に、protobuf データを Amazon S3 バケットにアップロードします。protobuf 形式は、SageMaker AI でのモデルトレーニングに効率的です。

    2. SageMaker AI CreateTrainingJobリクエストを送信して、SageMaker AI でモデルトレーニングを開始します。モデルトレーニングが完了すると、SageMaker AI はモデルアーティファクトを S3 バケットに保存します。

      SageMaker AI は、モデルトレーニングのために指定した IAM ロールを引き受け、ユーザーに代わってタスクを実行します。例えば、このロールを使用して、S3 バケットからトレーニングデータを読み取り、モデルアーティファクトをバケットに書き込みます。

    3. SageMakerModel オブジェクトを作成して返します。コンストラクタは、SageMaker AI へのモデルのデプロイに関連する以下のタスクを実行します。

      1. SageMaker AI にCreateModelリクエストを送信します。

      2. SageMaker AI にCreateEndpointConfigリクエストを送信します。

      3. SageMaker AI にCreateEndpointリクエストを送信し、指定されたリソースを起動して、そのリソースでモデルをホストします。

  3. を使用して、SageMaker AI でホストされているモデルから推論を取得できますSageMakerModel.transform

    特徴が指定された入力 DataFrame を入力として指定します。transform メソッドがそれを推論が含まれる DataFrame メソッドに変換します。内部的には、transform メソッドは InvokeEndpoint SageMaker API にリクエストを送信して推論を取得します。この transform メソッドは、推論を入力 DataFrame に追加します。

プライバシーサイト規約Cookie の設定
© 2025, Amazon Web Services, Inc. or its affiliates.All rights reserved.