Sélectionner vos préférences de cookies

Nous utilisons des cookies essentiels et des outils similaires qui sont nécessaires au fonctionnement de notre site et à la fourniture de nos services. Nous utilisons des cookies de performance pour collecter des statistiques anonymes afin de comprendre comment les clients utilisent notre site et d’apporter des améliorations. Les cookies essentiels ne peuvent pas être désactivés, mais vous pouvez cliquer sur « Personnaliser » ou « Refuser » pour refuser les cookies de performance.

Si vous êtes d’accord, AWS et les tiers approuvés utiliseront également des cookies pour fournir des fonctionnalités utiles au site, mémoriser vos préférences et afficher du contenu pertinent, y compris des publicités pertinentes. Pour accepter ou refuser tous les cookies non essentiels, cliquez sur « Accepter » ou « Refuser ». Pour effectuer des choix plus détaillés, cliquez sur « Personnaliser ».

Test de charge de votre configuration de mise à l'échelle automatique

Mode de mise au point
Test de charge de votre configuration de mise à l'échelle automatique - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Effectuez des tests de charge pour choisir une configuration de dimensionnement qui fonctionne comme vous le souhaitez.

Les directives suivantes relatives aux tests de charge supposent que vous utilisez une politique de dimensionnement qui utilise la métrique cible prédéfinieSageMakerVariantInvocationsPerInstance.

Détermination des caractéristiques de performance

Effectuez un test de charge pour trouver le pic des InvocationsPerInstance que la variante de production de votre modèle peut gérer, et la latence des demandes lorsque la simultanéité augmente.

Cette valeur dépend du type d'instance choisi, des charges utiles que les clients de votre modèle envoient généralement et des performances de toutes les dépendances externes de votre modèle.

Pour déterminer le pic requests-per-second (RPS) que la variante de production de votre modèle peut gérer et la latence des demandes
  1. Configurez un point de terminaison avec votre modèle à l'aide d'une seule instance. Pour plus d'informations sur la configuration d'un point de terminaison, consultez Déployer le modèle sur les services d'hébergement SageMaker AI.

  2. Utilisez un outil de test de charge pour générer un nombre croissant de requêtes parallèles, et surveiller les demandes par seconde et le modèle de latence dans la sortie de l'outil de test de charge.

    Note

    Vous pouvez également surveiller requests-per-minute au lieu du RPS. Dans ce cas, ne multipliez pas par 60 dans l'équation pour calculer SageMakerVariantInvocationsPerInstance comme ci-dessous.

    Lorsque la latence du modèle augmente ou que la proportion de transactions réussies diminue, il s'agit du pic des demandes par seconde que votre modèle peut traiter.

Calcul de la charge cible

Une fois que vous avez trouvé les caractéristiques de performance de la variante, vous pouvez déterminer le RPS maximal autorisé à être envoyé à une instance. Le seuil utilisé pour le dimensionnement doit être inférieur à la valeur maximale. Utilisez l'équation suivante en combinaison avec des tests de charge pour déterminer la valeur correcte pour la métrique SageMakerVariantInvocationsPerInstance cible dans votre configuration de mise à l'échelle.

SageMakerVariantInvocationsPerInstance = (MAX_RPS * SAFETY_FACTOR) * 60

MAX_RPS est le RPS maximal que vous avez déterminé précédemment et SAFETY_FACTOR le facteur de sécurité que vous avez choisi pour vous assurer que vos clients ne dépassent pas le RPS maximal. Multipliez par 60 pour convertir le RPS en un CloudWatch indicateur par minute utilisé par l' SageMaker IA pour implémenter la mise à l'échelle automatique (vous n'avez pas besoin de le faire si vous avez mesuré requests-per-minute au lieu de requests-per-second). invocations-per-minute

Note

SageMaker AI vous recommande de commencer les tests avec une valeur SAFETY_FACTOR de 0,5. Testez votre configuration de dimensionnement pour vous assurer qu'elle fonctionne comme vous le souhaitez avec votre modèle, à la fois pour augmenter ou diminuer le trafic client sur votre terminal.

ConfidentialitéConditions d'utilisation du sitePréférences de cookies
© 2025, Amazon Web Services, Inc. ou ses affiliés. Tous droits réservés.