使用者指南 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用者指南

本節涵蓋資料科學家和資料工程師如何從 Studio 或 Studio Classic 啟動、探索、連線或終止 Amazon EMR 叢集。

管理員必須先在 Studio 環境中設定必要的設定,使用者才能列出或啟動叢集。如需管理員如何設定 Studio 環境以允許自行佈建和列出 Amazon EMR 叢集的詳細資訊,請參閱 管理員指南

支援從 Studio 或 Studio Classic 連線至 Amazon EMR 叢集的影像和核心

下列映像和核心隨附 sagemaker-studio-analytics-extension,這是使用 Apache Livy 透過 SparkMagic 程式庫連接至遠端 Spark (Amazon EMR) 叢集的 JupyterLab 延伸模組。

  • 對於 Studio 使用者:SageMaker Distribution 是資料科學的 Docker 環境,用作 JupyterLab 筆記本執行個體的預設映像。所有版本的 SageMaker AI Distribution 都已sagemaker-studio-analytics-extension預先安裝。

  • 對於 Studio Classic 使用者:下列映像已預先安裝 sagemaker-studio-analytics-extension

    • DataScience–Python 3 核心

    • DataScience 2.0–Python 3 核心

    • DataScience 3.0–Python 3 核心

    • Spark 1.0–Spark 與 PySpark 核心

    • SparkAnalytics 2.0–SparkMagic 與 PySpark 核心

    • SparkMagic–SparkMagic 與 PySpark 核心

    • PyTorch 1.8–Python 3 核心

    • TensorFlow 2.6–Python3 核心

    • TensorFlow 2.11–Python 3 核心

若要使用其他內建映像或您自己的映像連線至 Amazon EMR 叢集,請遵循 使用您自己的映像 指示。

使用您自己的映像

若要在 Studio 或 Studio Classic 中攜帶您自己的映像,並允許筆記本連線到 Amazon EMR 叢集,請將下列 sagemaker-studio-analytics-extension 延伸模組安裝到您的核心。它支援透過 SparkMagic 程式庫將 SageMaker Studio 或 Studio Classic 筆記本連接到 Spark(Amazon EMR) 叢集。 SparkMagic

pip install sparkmagic pip install sagemaker-studio-sparkmagic-lib pip install sagemaker-studio-analytics-extension

此外,若要使用 Kerberos 身分驗證連線至 Amazon EMR,您必須安裝 kinit 用戶端。根據您的作業系統,安裝 kinit 用戶端的指令可能會有所不同。若要使用 Ubuntu (基於 Debian) 映像,請使用 apt-get install -y -qq krb5-user 命令。

如需在 SageMaker Studio 或 Studio Classic 中自有映像的詳細資訊,請參閱自備 SageMaker AI 映像