使用 SageMaker Spark for Python (PySpark) 範例的資源 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用 SageMaker Spark for Python (PySpark) 範例的資源

Amazon SageMaker 提供 Apache Spark PythonSageMaker PySpark程式庫 ( ),可用來整合 Apache Spark 應用程式與 SageMaker。本主題包含可協助您開始使用 的範例 PySpark。如需 SageMaker Apache Spark 程式庫的相關資訊,請參閱 搭配 Amazon 的 Apache Spark SageMaker

下載 PySpark

您可以從 SageMaker Spark GitHub 儲存庫下載 Python Spark (PySpark) 和 Scala 程式庫的原始程式碼。

如需安裝 SageMaker Spark 程式庫的指示,請使用下列任何選項或造訪 SageMaker PySpark

  • 使用 pip 安裝:

    pip install sagemaker_pyspark
  • 從來源安裝:

    git clone git@github.com:aws/sagemaker-spark.git cd sagemaker-pyspark-sdk python setup.py install
  • 您也可以在筆記本執行個體中建立新的筆記本,該執行個體使用 Sparkmagic (PySpark)Sparkmagic (PySpark3) 核心,並連接至遠端 Amazon EMR叢集。

    注意

    Amazon EMR叢集必須設定為已連接AmazonSageMakerFullAccess政策IAM的角色。如需為EMR叢集設定角色的相關資訊,請參閱 Amazon 管理指南 中的設定 Amazon 服務EMR許可IAM AWS 的角色 EMR

PySpark 範例

如需使用 的範例 SageMaker PySpark,請參閱:

若要在筆記本執行個體上執行筆記本,請參閱存取範例筆記本。若要在 Studio 上執行筆記本,請參閱建立或開啟 Amazon SageMaker Studio Classic Notebook