基本健康檢查 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

基本健康檢查

SageMaker HyperPod 在建立和更新叢集期間,對叢集執行個體執行一組基本健康狀態檢查。 HyperPod 這些基本運作狀態檢查與協調器無關,因此無論 Amazon 或 Slurm 支援的基礎協調流程平台為何,這些檢查都適用。 SageMaker HyperPod EKS

基本健康狀態檢查會監控叢集執行個體是否有與裝置相關的問題,例如加速器 (GPU和 Trainium 核心) 和網路裝置 (彈性網狀架構配接卡或)。EFA若要尋找基本叢集健全狀況檢查的清單,請參閱叢集健康狀態檢查