Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Test de charge de votre configuration de mise à l'échelle automatique
Effectuez des tests de charge pour choisir une configuration de dimensionnement qui fonctionne comme vous le souhaitez.
Les directives suivantes relatives aux tests de charge supposent que vous utilisez une politique de dimensionnement qui utilise la métrique cible prédéfinieSageMakerVariantInvocationsPerInstance
.
Détermination des caractéristiques de performance
Effectuez un test de charge pour trouver le pic des InvocationsPerInstance
que la variante de production de votre modèle peut gérer, et la latence des demandes lorsque la simultanéité augmente.
Cette valeur dépend du type d'instance choisi, des charges utiles que les clients de votre modèle envoient généralement et des performances de toutes les dépendances externes de votre modèle.
Pour déterminer le pic requests-per-second (RPS) que la variante de production de votre modèle peut gérer et le temps de latence des demandes
-
Configurez un point de terminaison avec votre modèle à l'aide d'une seule instance. Pour plus d'informations sur la configuration d'un point de terminaison, consultez Déployer le modèle dans les services SageMaker d'hébergement.
-
Utilisez un outil de test de charge pour générer un nombre croissant de requêtes parallèles, et surveillez RPS et modélisez la latence en sortie de l'outil de test de charge.
Note
Vous pouvez également surveiller requests-per-minute au lieu deRPS. Dans ce cas, ne multipliez pas par 60 dans l'équation pour calculer
SageMakerVariantInvocationsPerInstance
comme ci-dessous.Lorsque la latence du modèle augmente ou que la proportion de transactions réussies diminue, il s'agit du pic RPS que votre modèle peut supporter.
Calcul de la charge cible
Après avoir déterminé les caractéristiques de performance de la variante, vous pouvez déterminer le maximum RPS que nous devons autoriser à envoyer à une instance. Le seuil utilisé pour le dimensionnement doit être inférieur à la valeur maximale. Utilisez l'équation suivante en combinaison avec des tests de charge pour déterminer la valeur correcte pour la métrique SageMakerVariantInvocationsPerInstance
cible dans votre configuration de mise à l'échelle.
SageMakerVariantInvocationsPerInstance = (MAX_RPS * SAFETY_FACTOR) * 60
Quel MAX_RPS
est le maximum RPS que vous avez déterminé précédemment, et quel SAFETY_FACTOR
est le facteur de sécurité que vous avez choisi pour vous assurer que vos clients ne le dépassent pas RPS ? Multipliez par 60 pour convertir de RPS à et correspondre invocations-per-minute à la CloudWatch métrique par minute SageMaker utilisée pour implémenter la mise à l'échelle automatique (vous n'avez pas besoin de le faire si vous avez mesuré requests-per-minute au lieu de requests-per-second).
Note
SageMaker recommande de commencer les tests avec une valeur SAFETY_FACTOR
de 0,5. Testez votre configuration de dimensionnement pour vous assurer qu'elle fonctionne comme vous le souhaitez avec votre modèle, à la fois pour augmenter ou diminuer le trafic client sur votre terminal.