使用者指南 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用者指南

本節介紹資料科學家和資料工程師如何從 Studio 或 Studio Classic 啟動、探索、連接或終止 Amazon EMR 叢集。

系統管理員必須先在 Studio 環境中設定必要的設定,使用者才能列出或啟動叢集。如需管理員如何設定 Studio 環境以允許自行佈建和列出 Amazon EMR 叢集的相關資訊,請參閱管理員指南

從工作室或工作室經典版連接到 Amazon EMR 群集的支持映像和內核

下面的圖像和內核隨附 sagemaker-studio-analytics-extension,這是通過使用 Apache Li vy SparkMagic庫連接到遠程 Spark(AmazonEMR)集群的 JupyterLab 擴展。

  • 對於 Studio 用戶: SageMaker分發是用於數據科學的 Docker 環境,用作 JupyterLab 筆記本實例的默認映像。所有版本的SageMaker發行版都sagemaker-studio-analytics-extension已預先安裝。

  • 對於工作室經典版用戶:以下圖像已預先安裝sagemaker-studio-analytics-extension

    • DataScience -Python 3 內核

    • DataScience 2.0-Python 3 內核

    • DataScience 3.0-Python 3 內核

    • SparkAnalytics 1.0 — SparkMagic 和 PySpark 內核

    • SparkAnalytics 2.0 — SparkMagic 和 PySpark 內核

    • SparkMagic — SparkMagic 和 PySpark 內核

    • PyTorch 1.8 — Python 3 內核

    • TensorFlow 2.6 — Python 3 內核

    • TensorFlow 2.11 — Python 3 核心

若要使用其他內建映像或您自己的映像連線到 Amazon EMR 叢集,請遵循中的指示使用自有映像

使用自有映像

若要在 Studio 或 Studio Classic 中使用您自己的映像檔,並允許您的筆記型電腦連線到 Amazon EMR 叢集,請將下列sagemaker-studio-analytics-extension擴充功能安裝到您的核心。它支持通過SparkMagic庫將工作 SageMaker 室或工作室經典筆記本連接到 Spark(AmazonEMR)集群。

pip install sparkmagic pip install sagemaker-studio-sparkmagic-lib pip install sagemaker-studio-analytics-extension

此外,若要EMR透過 Kerberos 身分驗證連線到 Amazon,您必須安裝 kinit 用戶端。根據您的作業系統,安裝 kinit 用戶端的指令可能會有所不同。若要使用 Ubuntu (基於 Debian) 映像,請使用 apt-get install -y -qq krb5-user 命令。

有關在 SageMaker Studio 或工作室經典版中使用自己的圖像的更多信息,請參閱自帶 SageMaker 圖像