使用 SageMaker HyperPod 主控台 UI - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用 SageMaker HyperPod 主控台 UI

下列主題提供如何 SageMaker HyperPod 透過主控台 UI 管理 的指引。

建立 SageMaker HyperPod 叢集

請參閱下列有關透過 SageMaker HyperPod 主控台 UI 建立新 SageMaker HyperPod 叢集的指示。

  1. 在 開啟 Amazon SageMaker 主控台https://console.aws.amazon.com/sagemaker/

  2. 在左側導覽窗格中選擇HyperPod 叢集

  3. 在 SageMaker HyperPod 登陸頁面中,選擇建立 HyperPod叢集

  4. 建立 HyperPod 叢集 的下拉式功能表中,選擇由 Slurm 協調

  5. 步驟 1:叢集設定 中,設定叢集的基本資訊。

    1. 針對叢集名稱 ,指定新叢集的名稱。

    2. 對於標籤 ,將索引鍵和值對新增至新叢集,並以 AWS 資源形式管理叢集。若要進一步了解,請參閱標記您的 AWS 資源。

  6. 步驟 2:執行個體群組 中,選擇建立執行個體群組 。每個執行個體群組的設定可以不同,而且您可以建立異質叢集,其中包含具有各種執行個體類型的多個執行個體群組。在建立執行個體群組組態快顯視窗中,填入執行個體群組組態資訊。

    1. 針對執行個體群組名稱 ,指定執行個體群組的名稱。

    2. 針對選取執行個體類型 ,選擇執行個體群組的執行個體。

    3. 針對數量 ,指定不超過叢集用量執行個體配額的整數。

    4. 對於生命週期指令碼檔案的 Amazon S3 路徑,輸入儲存生命週期指令碼的 S3 路徑。

    5. 針對建立中生命週期指令碼的目錄路徑 ,請在 S3 路徑下輸入生命週期指令碼的檔案名稱,以使用生命週期指令碼檔案

    6. 對於IAM角色,請按照 章節選擇您為 SageMaker HyperPod 資源建立IAM的角色AWS Identity and Access Management 對於 SageMaker HyperPod

    7. 進階組態 下,您可以設定下列選用組態。

      1. (選用) 針對每個核心的執行緒 ,請1指定 用於停用多執行緒,以及 2用於啟用多執行緒。若要尋找支援多執行緒的執行個體類型,請參閱 Amazon EC2使用者指南 中的CPU每個執行個體類型的核心和每個CPU核心執行緒參考表。

      2. (選用) 對於其他執行個體儲存體組態 ,請指定介於 1 到 16384 之間的整數,以設定以 GB (GB) 為單位的額外 Elastic Block Store (EBS) 磁碟區大小。EBS 磁碟區會連接至執行個體群組的每個執行個體。額外EBS磁碟區的預設掛載路徑為 /opt/sagemaker。叢集建立成功後,您可以SSH進入叢集執行個體 (節點),並透過執行 df -h命令來驗證EBS磁碟區是否正確掛載。連接額外的EBS磁碟區可提供穩定、意外和獨立持久的儲存,如 Amazon Elastic Block Store 使用者指南 中的 Amazon EBS磁碟區一節中所述。

  7. 步驟 3:進階組態 中,設定叢集 in-and-out和叢集的選用網路設定。VPC 如果您已經擁有可在 下 SageMaker 存取資源的 ,請選取您自己的 VPC。如果您想要建立新的 VPC,請參閱 Amazon Virtual Private Cloud 使用者指南 中的建立預設值VPC建立 VPCAmazon Virtual Private Cloud 如果您未進行任何選擇,它會取得VPC您帳戶的預設值。

    注意

    如果您想要使用自己的 VPC,您應該為 SageMaker HyperPod 叢集IAM的角色新增其他許可。如需進一步了解,請參閱 使用 Amazon 設定 SageMaker HyperPod VPC

  8. 步驟 4:檢閱並建立 中,檢閱您從步驟 1步驟 3 設定的組態,並完成提交叢集建立請求。

  9. 在叢集的狀態變為 之後InService,您可以開始登入叢集節點。若要存取叢集節點並開始執行 ML 工作負載,請參閱 SageMaker HyperPod 叢集上的任務

瀏覽 SageMaker HyperPod 叢集

在 SageMaker HyperPod 主控台主頁面上的叢集下,所有建立的叢集都應該顯示在叢集區段下,該區段提供叢集、其 ARNs、 狀態和建立時間的摘要檢視。

檢視每個 SageMaker HyperPod 叢集的詳細資訊

在主控台主頁面上的叢集下,叢集名稱會啟用為連結。選擇叢集名稱連結以查看每個叢集的詳細資訊。

編輯 SageMaker HyperPod 叢集

  1. 叢集 下,選擇您要更新的叢集。

  2. 選擇動作按鈕,然後選擇編輯叢集

  3. 編輯 <your-cluster> 頁面中,您可以編輯現有執行個體群組的組態、新增更多執行個體群組,以及變更叢集的標籤。進行變更後,請選擇提交 。請注意,目前您無法減少或刪除現有的執行個體群組。

    1. 設定執行個體群組區段中,您可以選擇建立叢集群組 來新增更多執行個體群組

    2. 設定執行個體群組區段中,您可以選擇其中一個執行個體群組,然後選擇編輯以變更其組態。

    3. 標籤區段中,您可以更新叢集的標籤。

刪除 SageMaker HyperPod 叢集

  1. 叢集 下,選擇您要刪除的叢集。

  2. 選擇動作 ,然後選擇刪除叢集

  3. 在刪除叢集的快顯視窗中,仔細檢閱叢集資訊,以確認您選擇正確的叢集來刪除。

  4. 檢閱叢集資訊後,請選擇是,刪除叢集

  5. 在文字欄位中確認此刪除,輸入 delete

  6. 選擇快顯視窗右下角的刪除,以完成傳送叢集刪除請求。