使用者指南 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用者指南

本節介紹資料科學家和資料工程師如何從 Studio 或 Studio Classic 啟動、探索、連線或終止 Amazon EMR叢集。

管理員必須先在 Studio 環境中設定必要的設定,使用者才能列出或啟動叢集。如需管理員如何設定 Studio 環境以允許自行佈建和 Amazon EMR叢集清單的資訊,請參閱 管理員指南

支援從 Studio 或 Studio Classic 連線至 Amazon EMR叢集的影像和核心

下列映像和核心隨附 sagemaker-studio-analytics-extension,該 JupyterLab 延伸模組使用 Apache Livy 透過SparkMagic程式庫連接至遠端 Spark (AmazonEMR) 叢集。

  • 對於 Studio 使用者: SageMaker 分佈是作為筆記本執行個體預設映像的資料科學 JupyterLabDocker 環境。所有版本的SageMaker分發都已sagemaker-studio-analytics-extension預先安裝。

  • 對於 Studio Classic 使用者:下列映像已預先安裝 sagemaker-studio-analytics-extension

    • DataScience – Python 3 核心

    • DataScience 2.0 – Python 3 核心

    • DataScience 3.0 – Python 3 核心

    • SparkAnalytics 1.0 – SparkMagic 和 PySpark 核心

    • SparkAnalytics 2.0 – SparkMagic 和 PySpark 核心

    • SparkMagic – SparkMagic 和 PySpark 核心

    • PyTorch 1.8 – Python 3 核心

    • TensorFlow 2.6 – Python 3 核心

    • TensorFlow 2.11 – Python 3 核心

若要使用另一個內建映像或您自己的映像連線至 Amazon EMR叢集,請遵循 中的指示使用自有映像

使用自有映像

若要在 Studio 或 Studio Classic 中自有映像並允許筆記本連線至 Amazon EMR叢集,請將下列sagemaker-studio-analytics-extension擴充功能安裝到您的核心。它支援透過SparkMagic程式庫將 SageMaker Studio 或 Studio Classic 筆記本連接至 Spark(AmazonEMR) 叢集。

pip install sparkmagic pip install sagemaker-studio-sparkmagic-lib pip install sagemaker-studio-analytics-extension

此外,若要EMR使用 Kerberos 身分驗證連線至 Amazon,您必須安裝 kinit 用戶端。根據您的作業系統,安裝 kinit 用戶端的指令可能會有所不同。若要使用 Ubuntu (基於 Debian) 映像,請使用 apt-get install -y -qq krb5-user 命令。

如需在 SageMaker Studio 或 Studio Classic 中自帶映像的詳細資訊,請參閱自帶 SageMaker 映像。