使用 SageMaker HyperPod 的先決條件 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用 SageMaker HyperPod 的先決條件

下列各節會先逐步引導您完成先決條件,再開始使用 SageMaker HyperPod。

SageMaker HyperPod 配額

您可以在 AWS 帳戶中建立 SageMaker HyperPod 叢集,並指定叢集用量的配額。

重要

若要進一步了解 SageMaker HyperPod 定價,請參閱 SageMaker HyperPod 定價Amazon SageMaker Pricing

使用 AWS 管理主控台檢視 Amazon SageMaker HyperPod 配額

查詢配額 的預設和套用值,也稱為限制 ,適用於 的叢集用量 。 SageMaker HyperPod

  1. 開啟 Service Quotas 主控台

  2. 在左側導覽窗格中,選擇 AWS 服務

  3. AWS 服務清單中,搜尋並選取 Amazon SageMaker

  4. 服務配額清單中,您可以看到服務配額名稱、套用值 (如果有)、 AWS 預設配額,以及配額值是否可以調整。

  5. 在搜尋列中,輸入叢集用量 。這會顯示叢集用量、套用的配額和預設配額的配額。

使用 AWS 管理主控台請求 Amazon SageMaker HyperPod 配額

在帳戶或資源層級增加配額。

  1. 若要增加叢集用量 的執行個體配額,請選取您要增加的配額。

  2. 如果配額可調整,您可以根據調整能力欄中列出的值,在帳戶層級或資源層級請求增加配額。

  3. 對於增加配額值 ,輸入新值。新值必須大於目前的值。

  4. 選擇請求

  5. 若要在主控台中檢視任何待處理或最近已解決的請求,請從服務的詳細資訊頁面導覽至請求歷史記錄索引標籤,或從導覽窗格中選擇儀表板。對於擱置的請求,請選擇請求狀態以開啟請求回條。請求的初始狀態為 Pending (待定)。狀態變更為請求的 Quota 後,您會看到具有 的案例編號 AWS Support。選擇案例編號,為請求開啟票證。

若要進一步了解如何請求提高一般配額,請參閱服務配額使用者指南中的請求提高配額。 AWS Service Quotas

使用 Amazon 設定 SageMaker HyperPod VPC

若要使用 Amazon 設定 SageMaker HyperPod 叢集VPC,請檢查下列項目。

注意

與 協調時需要此參數EKS,而您必須VPC對 HyperPod clutser 使用相同的 。若要使用 Slurm 進行協調,VPC可自行設定。

  • 如果您想要使用自己的 VPC SageMaker HyperPod 與 中的 AWS 資源連線VPC,您需要在建立 時提供VPC名稱、ID、 AWS 區域子網路 ID 和安全群組 ID SageMaker HyperPod。如果您想要建立新的 VPC,請參閱 Amazon Virtual Private Cloud 使用者指南 中的建立預設值VPC建立 VPCAmazon Virtual Private Cloud

  • 請務必在相同 AWS 區域 和可用區域中建立所有資源,並設定安全群組規則,以允許 中資源之間的連線VPC。例如,假設您在 VPC中建立 us-west-2。您應該在可用區域 VPC中建立子網路us-west-2a,並建立安全群組,允許來自安全群組內部的所有傳入 (傳入) 流量和所有傳出流量。

  • 您也需要確保 VPC 的 具有 Amazon Simple Storage Service (Amazon S3) 的連線。如果您設定 VPC, SageMaker HyperPod 執行個體群組無法存取網際網路,因此無法連線至 Amazon S3 來存取或儲存生命週期指令碼、訓練資料和模型成品等檔案。若要在使用 時與 Amazon S3 建立連線VPC,您應該建立VPC端點。透過建立VPC端點,您可以允許 SageMaker HyperPod 執行個體群組存取相同 中的 Amazon S3 儲存貯體VPC。我們建議您也建立自訂政策,僅允許私有的請求VPC存取 Amazon S3 儲存貯體。如需詳細資訊,請參閱 AWS PrivateLink 指南 中的 Amazon S3 端點

  • 如果您想要使用EFA已啟用 的執行個體建立 HyperPod 叢集,請確定您已設定安全群組,以允許進出安全群組本身的所有傳入和傳出流量。若要進一步了解,請參閱 Amazon EC2使用者指南 中的步驟 1:準備EFA啟用 的安全群組

針對叢集使用者存取控制設定 AWS Systems Manager 和執行為

SageMaker HyperPod DLAMI 隨附開箱即用的 AWS Systems Manager(SSM),可協助您管理 SageMaker HyperPod 對叢集執行個體群組的存取。本節說明如何在 SageMaker HyperPod 叢集中建立作業系統 (OS) 使用者,並將其與IAM使用者和角色建立關聯。這對於使用作業系統使用者帳戶的憑證來驗證SSM工作階段非常有用。

在 AWS 帳戶中啟用執行身分

身為 AWS 帳戶管理員或雲端管理員,您可以使用 中的執行身分功能SSM,管理IAM角色或使用者層級的 SageMaker HyperPod 叢集存取權。透過此功能,您可以使用與IAM角色或使用者相關聯的作業系統使用者來啟動每個SSM工作階段。

若要在 AWS 帳戶中啟用執行身分,請遵循開啟執行身分支援 Linux 和 macOS 受管節點中的步驟。如果您已在叢集中建立作業系統使用者,請確定您依照步驟 5 中macOS開啟執行身分支援 Linux 和 macOS 受管節點 的選項 2 中的指引標記角色或使用者,以建立他們與IAM角色或使用者的關聯。

(選用) SageMaker HyperPod 使用 Amazon FSx for Lustre 設定

若要開始在叢集和 FSx for Lustre 檔案系統之間使用 SageMaker HyperPod 和映射資料路徑,請選取 AWS 區域 支援的其中一個 SageMaker HyperPod。選擇 AWS 區域 偏好的 後,您也應該決定要使用的可用區域 (AZ)。如果您在 中使用 SageMaker HyperPod 運算節點AZs,與在相同 內設定 FSx for Lustre 檔案系統的 AZs 不同 AWS 區域,則可能會有通訊和網路額外負荷。我們建議您使用與服務 SageMaker HyperPod 帳戶相同的實體 AZ,以避免 SageMaker HyperPod 叢集與 FSx for Lustre 檔案系統之間的任何跨 AZ 流量。此外,請確定您已使用 進行設定VPC。如果您想要使用 Amazon FSx作為儲存的主要檔案系統,則必須使用 設定 SageMaker HyperPod 叢集VPC。