本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
建立 SageMaker HyperPod 叢集
請參閱下列有關使用 SageMaker HyperPod 主控台 UI 建立新的 SageMaker HyperPod 叢集的說明。
-
在 https://console.aws.amazon.com/sagemaker/
:// 開啟 Amazon SageMaker AI 主控台。 -
在左側導覽窗格中選擇 HyperPod 叢集。
-
在 SageMaker HyperPod 登陸頁面中,選擇建立 HyperPod 叢集。
-
從建立 HyperPod 叢集的下拉式功能表中,選擇由 Amazon EKS 協調。
-
從 Amazon EKS 叢集清單中,選擇要設定新 HyperPod 叢集的 EKS 叢集。
-
如果您需要建立新的 EKS 叢集,請選擇建立 EKS 叢集。您可以從 EKS 叢集清單頁面建立它,而不必開啟 Amazon EKS 主控台。
注意
您為 HyperPod 選擇的 VPC 子網路必須是私有的。
-
提交新的 EKS 叢集建立請求後,請等待 EKS 叢集變為作用中。
-
依照 中的指示安裝 Helm Chart使用 Helm 在 Amazon EKS 叢集上安裝套件。
-
EKS 叢集建立完成後,請選擇建立 HyperPod 叢集,然後再次由 EKS 協調。您應該能夠尋找和選取新的 EKS 叢集。若要繼續,請選擇選取。
-
-
在設定新的 HyperPod 叢集頁面上,設定叢集的基本資訊,例如名稱、啟用 HyperPod 叢集彈性功能的選項,以及標籤。
-
針對叢集名稱,指定新叢集的名稱。
-
對於叢集彈性 - 節點復原,請指定
Automatic
以啟用自動節點復原。當運作狀態監控代理程式發現問題時,SageMaker HyperPod 會取代或重新啟動執行個體 (節點)。 -
對於標籤,將金鑰和值對新增至新叢集,並以 AWS 資源的形式管理叢集。若要進一步了解,請參閱標記您的 AWS 資源。
-
在步驟 2:設定執行個體群組中,選擇建立執行個體群組。每個執行個體群組的設定可以不同,而且您可以建立異質叢集,其中包含具有各種執行個體類型的多個執行個體群組。在建立執行個體群組組態快顯視窗中,填入執行個體群組組態資訊。
建立執行個體群組快顯頁面,並遵循 UI 指導設定新的執行個體群組。
-
針對執行個體群組名稱,指定執行個體群組的名稱。
-
針對選取執行個體類型,選擇執行個體群組的執行個體。
-
針對數量,指定不超過叢集用量執行個體配額的整數。
-
準備生命週期組態指令碼並上傳至 Amazon S3 儲存貯體,例如
s3://amzn-s3-demo-bucket-sagemaker>/<lifecycle-script-directory>/src/
。若要快速開始,
on_create.sh
請從 AWS ome Distributed Training GitHub 儲存庫下載範例指令碼,並將其上傳至 S3 儲存貯體。此指令碼會設定 CloudWatch 從 Pod 容器收集日誌 /var/log/provision/provisioning.log
所需的記錄檔案。您也可以包含其他設定指示、一系列設定指令碼,或在 HyperPod 叢集佈建階段執行的命令。 -
針對生命週期指令碼的 S3 儲存貯體 URI,輸入儲存生命週期指令碼的 Amazon S3 路徑。
-
對於基本 Amazon S3 路徑中進入點指令碼的目錄路徑,在 Amazon S3 路徑下輸入生命週期指令碼的檔案名稱。如果您使用提供的範例指令碼,請輸入
on_create.sh
。 -
針對 IAM 角色,請依照 章節選擇您為 SageMaker HyperPod 資源建立的 IAM 角色SageMaker HyperPod 的 IAM 角色。
-
在進階組態下,您可以設定下列選用組態。
-
(選用) 對於每個核心的執行緒,請
1
指定 以停用多執行緒,以及2
以啟用多執行緒。若要尋找支援多執行緒的執行個體類型,請參閱《Amazon EC2 使用者指南》中的每個執行個體類型的 CPU 核心和每個 CPU 核心的執行緒參考表。 -
(選用) 對於其他執行個體儲存體組態,請指定介於 1 到 16384 之間的整數,以 GB (GB) 為單位設定額外的彈性區塊存放區 (EBS) 磁碟區的大小。EBS 磁碟區會連接至執行個體群組的每個執行個體。額外 EBS 磁碟區的預設掛載路徑為
/opt/sagemaker
。叢集成功建立後,您可以 SSH 進入叢集執行個體 (節點),並透過執行df -h
命令來驗證 EBS 磁碟區是否正確掛載。連接額外的 EBS 磁碟區可提供穩定、執行個體外和獨立持久的儲存,如 Amazon Elastic Block Store 使用者指南中的 Amazon EBS 磁碟區一節中所述。
-
-
-
針對深度運作狀態檢查,選取您要在執行個體上執行的進階運作狀態檢查。如需進一步了解,請參閱 深層運作狀態檢查。
-
在步驟 3:進階組態中,設定叢集內和叢集in-and-out的網路設定。對於使用 Amazon EKS 協調 SageMaker HyperPod 叢集,VPC 會自動設定為使用您選取的 EKS 叢集設定的 VPC。
-
在步驟 4:檢閱和建立中,檢閱您從步驟 1 到步驟 3 設定的組態,並完成提交叢集建立請求。
-
在叢集的狀態變為 後
InService
,您可以開始登入叢集節點。若要存取叢集節點並開始執行 ML 工作負載,請參閱 SageMaker HyperPod 叢集上的任務。