Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Amazon SageMaker HyperPod Task Governance fournit un tableau de bord complet des indicateurs d'utilisation de votre cluster Amazon EKS, y compris les indicateurs relatifs au matériel, aux équipes et aux tâches. Vous trouverez ci-dessous des informations sur le tableau de bord de votre cluster HyperPod EKS.
Le tableau de bord fournit une vue complète des indicateurs d'utilisation du cluster, y compris les indicateurs relatifs au matériel, aux équipes et aux tâches. Vous devez installer le module complémentaire EKS pour afficher le tableau de bord. Pour de plus amples informations, veuillez consulter Configuration du tableau de bord.
Dans la console Amazon SageMaker AI
Utilisation
Fournit l'état du cluster EKS point-in-time et des mesures basées sur les tendances pour les ressources informatiques critiques. Par défaut, tous les groupes d'instances sont affichés. Utilisez le menu déroulant pour filtrer vos groupes d'instances. Les indicateurs inclus dans cette section sont les suivants :
-
Nombre total d'instances de restauration, en cours d'exécution et en attente. Le nombre d'instances de restauration en attente fait référence au nombre d'instances nécessitant une attention particulière pour la restauration.
-
GPUs, mémoire GPU, CPUs mémoire v et v. CPUs
-
Utilisation du processeur graphique, utilisation de la mémoire du processeur graphique, utilisation du processeur virtuel et utilisation de la mémoire du processeur virtuel.
-
Un graphique interactif de l'utilisation de votre GPU et de votre vCPU.
équipes
Fournit des informations sur la gestion des ressources spécifiques à l'équipe. Cela consiste notamment à :
-
Allocation d'instances et de GPU.
-
Taux d'utilisation du GPU.
-
Statistiques du GPU emprunté.
-
État de la tâche (en cours ou en attente).
-
Un graphique à barres de l'utilisation du GPU par rapport à l'allocation de calcul entre les équipes.
-
Informations détaillées sur le GPU et le vCPU de l'équipe. Par défaut, les informations affichées incluent Toutes les équipes. Vous pouvez filtrer par équipe et par instance en choisissant les menus déroulants. Dans le graphique interactif, vous pouvez filtrer par heure.
Tâches
Note
Pour afficher les tâches de votre cluster HyperPod EKS dans le tableau de bord :
-
Configurez le contrôle d'accès basé sur les rôles (RBAC) Kubernetes pour les utilisateurs de data scientists dans l'espace de HyperPod noms désigné afin d'autoriser l'exécution de tâches sur les clusters orchestrés par Amazon EKS. Les espaces de noms suivent le format.
hyperpod-ns-
Pour établir les autorisations RBAC, reportez-vous aux instructions de création des rôles d'équipeteam-name
. -
Assurez-vous que votre tâche est soumise avec l'espace de noms et les étiquettes de classe de priorité appropriés. Pour un exemple complet, voirSoumettre une tâche à une file d'attente et à un SageMaker espace de noms gérés par l'IA.
Fournit des informations sur les métriques liées aux tâches. Cela inclut le nombre de tâches en cours, en attente et préemptées, ainsi que les statistiques d'exécution et de temps d'attente. Par défaut, les informations affichées incluent Toutes les équipes. Vous pouvez filtrer par équipe en choisissant le menu déroulant. Dans le graphique interactif, vous pouvez filtrer par heure.