Surveillez l'utilisation des ressources AWS informatiques dans Amazon SageMaker Studio Classic - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Surveillez l'utilisation des ressources AWS informatiques dans Amazon SageMaker Studio Classic

Pour suivre l'utilisation des ressources informatiques dans le cadre de votre tâche de formation, utilisez les outils de surveillance proposés par Amazon SageMaker Debugger.

Pour chaque tâche de formation que vous exécutez dans le domaine de l' SageMaker IA à l'aide de SageMaker PythonSDK, Debugger collecte des mesures d'utilisation des ressources de base, telles que l'utilisation, CPU l'utilisation, l'GPUutilisation de la GPU mémoire, le réseau et le temps d'attente des E/S toutes les 500 millisecondes. Pour consulter le tableau de bord des indicateurs d'utilisation des ressources liés à votre tâche de formation, il vous suffit d'utiliser l'interface utilisateur du SageMaker débogueur dans SageMaker Studio Experiments.

Les opérations et étapes de deep learning peuvent s'exécuter à des intervalles de quelques millisecondes. Par rapport aux CloudWatch métriques Amazon, qui collectent des métriques à intervalles d'une seconde, Debugger fournit une granularité plus fine dans les métriques d'utilisation des ressources, jusqu'à des intervalles de 100 millisecondes (0,1 seconde) afin que vous puissiez approfondir les métriques au niveau d'une opération ou d'une étape.

Si vous souhaitez modifier l'intervalle de collecte des métriques, vous pouvez ajouter un paramètre de configuration du profilage à votre lanceur de tâches d'entraînement. Par exemple, si vous utilisez l' SageMaker IA PythonSDK, vous devez transmettre le profiler_config paramètre lorsque vous créez un objet estimateur. Pour découvrir comment ajuster l'intervalle de collecte des métriques d'utilisation des ressources, consultez Modèle de code pour configurer un objet estimateur SageMaker AI avec les modules SageMaker Debugger Python dans AI Python SageMaker SDK, puis Configuration des paramètres pour le profilage de base de l'utilisation des ressources du système.

En outre, vous pouvez ajouter des outils de détection de problèmes appelés règles de profilage intégrées fournies par SageMaker Debugger. Les règles de profilage intégrées exécutent une analyse par rapport aux métriques d'utilisation des ressources et détectent les problèmes de performances de calcul. Pour de plus amples informations, veuillez consulter Utiliser des règles de profilage intégrées gérées par Amazon Debugger SageMaker . Vous pouvez recevoir les résultats de l'analyse des règles via l'interface utilisateur du SageMaker débogueur dans SageMaker Studio Experiments ou via le rapport de profilage du SageMaker débogueur. Vous pouvez également créer des règles de profilage personnalisées à l'aide du SageMaker PythonSDK.

Pour en savoir plus sur les fonctionnalités de surveillance fournies par SageMaker Debugger, consultez les rubriques suivantes.