SageMaker AI Spark for Python (PySpark) を使用するためのリソースの例 - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

SageMaker AI Spark for Python (PySpark) を使用するためのリソースの例

Amazon SageMaker AI は、Apache Spark アプリケーションを SageMaker AI と統合するために使用できる Apache Spark Python ライブラリ (SageMaker AI PySpark) を提供します。 SageMaker このトピックでは、PySpark の使用を開始するために役立つ例を提供しています。SageMaker AI Apache Spark ライブラリの詳細については、「」を参照してくださいAmazon SageMaker AI を使用した Apache Spark

PySpark をダウンロードする

Python Spark (PySpark) ライブラリと Scala ライブラリの両方のソースコードは、SageMaker AI Spark GitHub リポジトリからダウンロードできます。

SageMaker AI Spark ライブラリをインストールする手順については、以下のオプションを使用するか、SageMaker AI PySpark にアクセスしてください。

  • pip を使用したインストール:

    pip install sagemaker_pyspark
  • ソースからインストールします。

    git clone git@github.com:aws/sagemaker-spark.git cd sagemaker-pyspark-sdk python setup.py install
  • Sparkmagic (PySpark) または Sparkmagic (PySpark3) カーネルを使用するノートブックインスタンスで新しいノートブックを作成し、リモートの Amazon EMR クラスターに接続することもできます。

    注記

    Amazon EMR クラスターは、AmazonSageMakerFullAccess ポリシーがアタッチされた IAM ロールを使用して設定する必要があります。EMR クラスターのロールの設定については、Amazon EMR 管理ガイドの「AWS サービスに Amazon EMR の許可の IAM ロールを設定する」を参照してください。

PySpark の例

SageMaker AI PySpark の使用例については、以下を参照してください。

ノートブックをノートブックインスタンスで実行する場合は、「サンプルノートブックにアクセスする」を参照してください。Studio でノートブックを実行する場合は、「Amazon SageMaker Studio Classic ノートブックを作成する、または開く」を参照してください。