SageMaker Spark for Python を使用するためのリソース (PySpark) の例 - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

SageMaker Spark for Python を使用するためのリソース (PySpark) の例

Amazon SageMaker では、Apache Spark Python ライブラリ (SageMaker PySpark) を提供しています。このライブラリを使用して、Apache Spark アプリケーションを と統合できます SageMaker。このトピックには、 の使用を開始するのに役立つ例が含まれています PySpark。 SageMaker Apache Spark ライブラリの詳細については、「」を参照してくださいAmazon を使用した Apache Spark SageMaker

ダウンロード PySpark

Python Spark (PySpark) ライブラリと Scala ライブラリの両方のソースコードを SageMaker Spark GitHub リポジトリからダウンロードできます。

SageMaker Spark ライブラリのインストール手順については、以下のオプションを使用するか、SageMaker PySpark「」を参照してください。

  • pip を使用して をインストールします。

    pip install sagemaker_pyspark
  • ソースから をインストールします。

    git clone git@github.com:aws/sagemaker-spark.git cd sagemaker-pyspark-sdk python setup.py install
  • Sparkmagic (PySpark) またはSparkmagic (PySpark3)カーネルのいずれかを使用してリモート Amazon EMRクラスターに接続するノートブックインスタンスに新しいノートブックを作成することもできます。

    注記

    Amazon EMRクラスターは、AmazonSageMakerFullAccessポリシーがアタッチされたIAMロールで設定する必要があります。EMR クラスターのロールの設定については、「Amazon 管理ガイド」の「Amazon EMR アクセス許可のIAMロールをサービスに設定 AWS」を参照してください。 EMR

PySpark 例

の使用例については SageMaker PySpark、以下を参照してください。

ノートブックをノートブックインスタンスで実行する場合は、「ノートブックの例にアクセスする」を参照してください。Studio でノートブックを実行する場合は、「Amazon SageMaker Studio Classic ノートブックを作成または開く」を参照してください。