本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用 SageMaker HyperPod 主控台 UI
下列主題提供如何 SageMaker HyperPod 透過主控台 UI 管理 的指引。
主題
建立 SageMaker HyperPod 叢集
請參閱下列有關透過 SageMaker HyperPod 主控台 UI 建立新 SageMaker HyperPod 叢集的指示。
-
在 開啟 Amazon SageMaker 主控台https://console.aws.amazon.com/sagemaker/
。 -
在左側導覽窗格中選擇HyperPod 叢集。
-
在 SageMaker HyperPod 登陸頁面中,選擇建立 HyperPod叢集 。
-
從建立 HyperPod 叢集 的下拉式功能表中,選擇由 Slurm 協調。
-
在步驟 1:叢集設定 中,設定叢集的基本資訊。
-
針對叢集名稱 ,指定新叢集的名稱。
-
對於標籤 ,將索引鍵和值對新增至新叢集,並以 AWS 資源形式管理叢集。若要進一步了解,請參閱標記您的 AWS 資源。
-
-
在步驟 2:執行個體群組 中,選擇建立執行個體群組 。每個執行個體群組的設定可以不同,而且您可以建立異質叢集,其中包含具有各種執行個體類型的多個執行個體群組。在建立執行個體群組組態快顯視窗中,填入執行個體群組組態資訊。
-
針對執行個體群組名稱 ,指定執行個體群組的名稱。
-
針對選取執行個體類型 ,選擇執行個體群組的執行個體。
-
針對數量 ,指定不超過叢集用量執行個體配額的整數。
-
對於生命週期指令碼檔案的 Amazon S3 路徑,輸入儲存生命週期指令碼的 S3 路徑。
-
針對建立中生命週期指令碼的目錄路徑 ,請在 S3 路徑下輸入生命週期指令碼的檔案名稱,以使用生命週期指令碼檔案 。
-
對於IAM角色,請按照 章節選擇您為 SageMaker HyperPod 資源建立IAM的角色AWS Identity and Access Management 對於 SageMaker HyperPod。
-
在進階組態 下,您可以設定下列選用組態。
-
(選用) 針對每個核心的執行緒 ,請
1
指定 用於停用多執行緒,以及2
用於啟用多執行緒。若要尋找支援多執行緒的執行個體類型,請參閱 Amazon EC2使用者指南 中的CPU每個執行個體類型的核心和每個CPU核心執行緒參考表。 -
(選用) 對於其他執行個體儲存體組態 ,請指定介於 1 到 16384 之間的整數,以設定以 GB (GB) 為單位的額外 Elastic Block Store (EBS) 磁碟區大小。EBS 磁碟區會連接至執行個體群組的每個執行個體。額外EBS磁碟區的預設掛載路徑為
/opt/sagemaker
。叢集建立成功後,您可以SSH進入叢集執行個體 (節點),並透過執行df -h
命令來驗證EBS磁碟區是否正確掛載。連接額外的EBS磁碟區可提供穩定、意外和獨立持久的儲存,如 Amazon Elastic Block Store 使用者指南 中的 Amazon EBS磁碟區一節中所述。
-
-
-
在步驟 3:進階組態 中,設定叢集 in-and-out和叢集的選用網路設定。VPC 如果您已經擁有可在 下 SageMaker 存取資源的 ,請選取您自己的 VPC。如果您想要建立新的 VPC,請參閱 Amazon Virtual Private Cloud 使用者指南 中的建立預設值VPC或建立 VPC 。 Amazon Virtual Private Cloud 如果您未進行任何選擇,它會取得VPC您帳戶的預設值。
注意
如果您想要使用自己的 VPC,您應該為 SageMaker HyperPod 叢集IAM的角色新增其他許可。如需進一步了解,請參閱 使用 Amazon 設定 SageMaker HyperPod VPC。
-
在步驟 4:檢閱並建立 中,檢閱您從步驟 1 到步驟 3 設定的組態,並完成提交叢集建立請求。
-
在叢集的狀態變為 之後
InService
,您可以開始登入叢集節點。若要存取叢集節點並開始執行 ML 工作負載,請參閱 SageMaker HyperPod 叢集上的任務。
瀏覽 SageMaker HyperPod 叢集
在 SageMaker HyperPod 主控台主頁面上的叢集下,所有建立的叢集都應該顯示在叢集區段下,該區段提供叢集、其 ARNs、 狀態和建立時間的摘要檢視。
檢視每個 SageMaker HyperPod 叢集的詳細資訊
在主控台主頁面上的叢集下,叢集名稱會啟用為連結。選擇叢集名稱連結以查看每個叢集的詳細資訊。
編輯 SageMaker HyperPod 叢集
-
在叢集 下,選擇您要更新的叢集。
-
選擇動作按鈕,然後選擇編輯叢集 。
-
在編輯 <your-cluster> 頁面中,您可以編輯現有執行個體群組的組態、新增更多執行個體群組,以及變更叢集的標籤。進行變更後,請選擇提交 。請注意,目前您無法減少或刪除現有的執行個體群組。
-
在設定執行個體群組區段中,您可以選擇建立叢集群組 來新增更多執行個體群組。
-
在設定執行個體群組區段中,您可以選擇其中一個執行個體群組,然後選擇編輯以變更其組態。
-
在標籤區段中,您可以更新叢集的標籤。
-
刪除 SageMaker HyperPod 叢集
-
在叢集 下,選擇您要刪除的叢集。
-
選擇動作 ,然後選擇刪除叢集 。
-
在刪除叢集的快顯視窗中,仔細檢閱叢集資訊,以確認您選擇正確的叢集來刪除。
-
檢閱叢集資訊後,請選擇是,刪除叢集 。
-
在文字欄位中確認此刪除,輸入
delete
。 -
選擇快顯視窗右下角的刪除,以完成傳送叢集刪除請求。