建立 SageMaker HyperPod 叢集 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

建立 SageMaker HyperPod 叢集

請參閱下列有關使用 SageMaker HyperPod 主控台 UI 建立新的 SageMaker HyperPod 叢集的說明。

  1. https://console.aws.amazon.com/sagemaker/:// 開啟 Amazon SageMaker AI 主控台。

  2. 在左側導覽窗格中選擇 HyperPod 叢集

  3. 在 SageMaker HyperPod 登陸頁面中,選擇建立 HyperPod 叢集

  4. 建立 HyperPod 叢集的下拉式功能表中,選擇由 Amazon EKS 協調

  5. 從 Amazon EKS 叢集清單中,選擇要設定新 HyperPod 叢集的 EKS 叢集。

    1. 如果您需要建立新的 EKS 叢集,請選擇建立 EKS 叢集。您可以從 EKS 叢集清單頁面建立它,而不必開啟 Amazon EKS 主控台。

      注意

      您為 HyperPod 選擇的 VPC 子網路必須是私有的。

    2. 提交新的 EKS 叢集建立請求後,請等待 EKS 叢集變為作用中。

    3. 依照 中的指示安裝 Helm Chart使用 Helm 在 Amazon EKS 叢集上安裝套件

    4. EKS 叢集建立完成後,請選擇建立 HyperPod 叢集,然後再次由 EKS 協調。您應該能夠尋找和選取新的 EKS 叢集。若要繼續,請選擇選取

  6. 設定新的 HyperPod 叢集頁面上,設定叢集的基本資訊,例如名稱、啟用 HyperPod 叢集彈性功能的選項,以及標籤。

  7. 針對叢集名稱,指定新叢集的名稱。

  8. 對於叢集彈性 - 節點復原,請指定 Automatic以啟用自動節點復原。當運作狀態監控代理程式發現問題時,SageMaker HyperPod 會取代或重新啟動執行個體 (節點)。

  9. 對於標籤,將金鑰和值對新增至新叢集,並以 AWS 資源的形式管理叢集。若要進一步了解,請參閱標記您的 AWS 資源

  10. 步驟 2:設定執行個體群組中,選擇建立執行個體群組。每個執行個體群組的設定可以不同,而且您可以建立異質叢集,其中包含具有各種執行個體類型的多個執行個體群組。在建立執行個體群組組態快顯視窗中,填入執行個體群組組態資訊。

    建立執行個體群組快顯頁面,並遵循 UI 指導設定新的執行個體群組。

    1. 針對執行個體群組名稱,指定執行個體群組的名稱。

    2. 針對選取執行個體類型,選擇執行個體群組的執行個體。

    3. 針對數量,指定不超過叢集用量執行個體配額的整數。

    4. 準備生命週期組態指令碼並上傳至 Amazon S3 儲存貯體,例如 s3://amzn-s3-demo-bucket-sagemaker>/<lifecycle-script-directory>/src/

      若要快速開始,on_create.sh請從 AWS ome Distributed Training GitHub 儲存庫下載範例指令碼,並將其上傳至 S3 儲存貯體。此指令碼會設定 CloudWatch 從 Pod 容器收集日誌/var/log/provision/provisioning.log所需的記錄檔案。您也可以包含其他設定指示、一系列設定指令碼,或在 HyperPod 叢集佈建階段執行的命令。

    5. 針對生命週期指令碼的 S3 儲存貯體 URI,輸入儲存生命週期指令碼的 Amazon S3 路徑。

    6. 對於基本 Amazon S3 路徑中進入點指令碼的目錄路徑,在 Amazon S3 路徑下輸入生命週期指令碼的檔案名稱。如果您使用提供的範例指令碼,請輸入 on_create.sh

    7. 針對 IAM 角色,請依照 章節選擇您為 SageMaker HyperPod 資源建立的 IAM 角色SageMaker HyperPod 的 IAM 角色

    8. 進階組態下,您可以設定下列選用組態。

      1. (選用) 對於每個核心的執行緒,請1指定 以停用多執行緒,以及 2 以啟用多執行緒。若要尋找支援多執行緒的執行個體類型,請參閱《Amazon EC2 使用者指南》中的每個執行個體類型的 CPU 核心和每個 CPU 核心的執行緒參考表。

      2. (選用) 對於其他執行個體儲存體組態,請指定介於 1 到 16384 之間的整數,以 GB (GB) 為單位設定額外的彈性區塊存放區 (EBS) 磁碟區的大小。EBS 磁碟區會連接至執行個體群組的每個執行個體。額外 EBS 磁碟區的預設掛載路徑為 /opt/sagemaker。叢集成功建立後,您可以 SSH 進入叢集執行個體 (節點),並透過執行 df -h命令來驗證 EBS 磁碟區是否正確掛載。連接額外的 EBS 磁碟區可提供穩定、執行個體外和獨立持久的儲存,如 Amazon Elastic Block Store 使用者指南中的 Amazon EBS 磁碟區一節中所述。

  11. 針對深度運作狀態檢查,選取您要在執行個體上執行的進階運作狀態檢查。如需進一步了解,請參閱 深層運作狀態檢查

  12. 步驟 3:進階組態中,設定叢集內和叢集in-and-out的網路設定。對於使用 Amazon EKS 協調 SageMaker HyperPod 叢集,VPC 會自動設定為使用您選取的 EKS 叢集設定的 VPC。

  13. 步驟 4:檢閱和建立中,檢閱您從步驟 1步驟 3 設定的組態,並完成提交叢集建立請求。

  14. 在叢集的狀態變為 後InService,您可以開始登入叢集節點。若要存取叢集節點並開始執行 ML 工作負載,請參閱 SageMaker HyperPod 叢集上的任務