SageMaker 火花 Python(PySpark)的例子 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

SageMaker 火花 Python(PySpark)的例子

Amazon SageMaker 提供了一個阿帕奇星火 Python 庫(SageMaker PySpark),你可以用它來集成你的 Apache 星火應用程序 SageMaker。例如,您可以使用 Apache Spark 進行資料預處理,以及 SageMaker 進行模型訓練和託管。如需有關 SageMaker Apache 星火程式庫的資訊,請參閱使用阿帕奇星火與 Amazon SageMaker

下載 PySpark

您可以從星火庫下載這兩個 Python 星火(PySpark)和斯卡拉 GitHub庫的SageMaker 源代碼。

如需安裝 SageMaker Spark 程式庫的指示,請使用下列任何選項或造訪SageMaker PySpark

  • 使用點子安裝:

    pip install sagemaker_pyspark
  • 從來源安裝:

    git clone git@github.com:aws/sagemaker-spark.git cd sagemaker-pyspark-sdk python setup.py install
  • 您也可以在使用Sparkmagic (PySpark)Sparkmagic (PySpark3)核心並連線至遠端 Amazon EMR 叢集的筆記本執行個體中建立新的筆記本。

    注意

    Amazon EMR 叢集必須使用已附加AmazonSageMakerFullAccess政策的IAM角色進行設定。如需為EMR叢集設定角色的相關資訊,請參閱 Amazon EMR管理指南中的設定 Amazon AWS 服務EMR許可的IAM角色。

PySpark 例子

如需使用範例 SageMaker PySpark,請參閱:

若要在筆記本執行個體上執行筆記本,請參閱範例筆記本。若要在 Studio 上執行筆記本,請參閱創建或打開 Amazon SageMaker 工作室經典筆記本