基本運作狀態檢查 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

基本運作狀態檢查

SageMaker HyperPod 在叢集建立和更新期間,對 HyperPod 叢集執行個體執行一組基本運作狀態檢查。這些基本運作狀態檢查與協調程式無關,因此無論 SageMaker HyperPod (Amazon EKS或 Slurm) 支援的基礎協調平台為何,這些檢查都適用。

基本運作狀態檢查會監控叢集執行個體是否有與加速器 (GPU 和 Trainium 核心) 和網路裝置 (Elastic Fabric Adapter 或 ) 等裝置相關的問題EFA。若要尋找基本叢集運作狀態檢查的清單,請參閱叢集運作狀態檢查