本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
SageMaker HyperPod 會在建立和更新 HyperPod 叢集期間,對叢集執行個體執行一組基本運作狀態檢查。這些基本運作狀態檢查與協調程式無關,因此無論 SageMaker HyperPod (Amazon EKS 或 Slurm) 支援的基礎協調平台為何,這些檢查都適用。
基本運作狀態檢查會監控叢集執行個體是否有與加速器 (GPU 和 Trainium 核心) 和網路裝置 (Elastic Fabric Adapter 或 EFA) 等裝置相關的問題。若要尋找基本叢集運作狀態檢查的清單,請參閱叢集運作狀態檢查。