Mise à l'échelle basée sur un calendrier Limites de mise à l'échelle minimale et maximale Temps de stabilisation Ressources connexes

Présentation des politiques de mise à l'échelle automatique.

Pour utiliser le dimensionnement automatique, vous définissez une politique de dimensionnement qui ajoute et supprime le nombre d'instances pour votre variante de production en réponse aux charges de travail réelles.

Pour effectuer une mise à l'échelle automatique en fonction de l'évolution de la charge de travail, deux options s'offrent à vous : le suivi des cibles et les politiques de dimensionnement par étapes.

Dans la plupart des cas, nous recommandons d'utiliser des politiques de dimensionnement pour le suivi des cibles. Avec le suivi des cibles, vous choisissez une CloudWatch métrique Amazon et une valeur cible. Auto Scaling crée et gère les CloudWatch alarmes relatives à la politique de dimensionnement et calcule l'ajustement de mise à l'échelle en fonction de la métrique et de la valeur cible. La politique ajoute et supprime le nombre d'instances requis pour maintenir la métrique à la valeur cible spécifiée ou proche de celle-ci. Par exemple, une stratégie de dimensionnement qui utilise la métrique InvocationsPerInstance prédéfinie avec une valeur cible égale à 70 peut maintenir InvocationsPerInstance à la valeur 70 ou à une valeur proche. Pour plus d'informations, veuillez consulter la rubrique Politiques de dimensionnement Suivi de la cible dans le Guide de l'utilisateur Application Auto Scaling.

Vous pouvez utiliser la mise à l'échelle par étapes lorsque vous avez besoin d'une configuration avancée, par exemple en spécifiant le nombre d'instances à déployer dans diverses conditions. Par exemple, vous devez utiliser le dimensionnement par étapes si vous souhaitez permettre à un point de terminaison de se développer à partir de zéro instance active. Pour une présentation des politiques de dimensionnement par étapes et de leur fonctionnement, consultez la section Politiques de dimensionnement par étapes du Guide de l'utilisateur d'Application Auto Scaling.

Pour créer une stratégie de mise à l’échelle de suivi des cibles, vous devez spécifier les éléments suivants :

Métrique : CloudWatch métrique à suivre, telle que le nombre moyen d'appels par instance.
Valeur cible : valeur cible de la métrique, telle que 70 appels par instance et par minute.

Vous pouvez créer des stratégies de suivi des objectifs de la mise à l'échelle avec des métriques prédéfinies ou des métriques personnalisées. Une métrique prédéfinie est définie dans une énumération afin que vous puissiez la spécifier par son nom dans le code ou l'utiliser dans la console SageMaker AI. Vous pouvez également utiliser Application Auto Scaling AWS CLI ou Application Auto Scaling API pour appliquer une politique de dimensionnement du suivi des cibles basée sur une métrique prédéfinie ou personnalisée.

Notez que les activités de mise à l'échelle sont effectuées avec des périodes de recharge entre elles afin d'éviter des fluctuations rapides de capacité. Vous pouvez éventuellement configurer les temps de stabilisation de votre stratégie de mise à l’échelle.

Pour plus d'informations sur les concepts clés de la mise à l'échelle automatique, consultez la section suivante.

Mise à l'échelle basée sur un calendrier

Vous pouvez également créer des actions planifiées pour effectuer des activités de dimensionnement à des moments précis. Vous pouvez créer des actions planifiées pour une mise à l’échelle unique ou selon une planification récurrente. Après l'exécution d'une action planifiée, votre politique de dimensionnement peut continuer à décider s'il convient de procéder à une mise à l'échelle dynamique en fonction de l'évolution de la charge de travail. Le dimensionnement planifié ne peut être géré que depuis AWS CLI ou depuis Application Auto ScalingAPI. Pour plus d'informations, voir Mise à l'échelle planifiée dans le Guide de l'utilisateur Application Auto Scaling..

Limites de mise à l'échelle minimale et maximale

Lorsque vous configurez le dimensionnement automatique, vous devez spécifier vos limites de dimensionnement avant de créer une politique de dimensionnement. Vous définissez des limites séparément pour les valeurs minimale et maximale.

La valeur minimale doit être au moins égale à 1 et inférieure ou égale à la valeur spécifiée pour la valeur maximale.

La valeur maximale doit être égale ou supérieure à la valeur spécifiée pour la valeur minimale. SageMaker AI Auto Scaling n'impose pas de limite pour cette valeur.

Pour déterminer les limites de mise à l'échelle dont vous avez besoin pour le trafic type, testez votre configuration de dimensionnement automatique en fonction du taux de trafic attendu vers votre modèle.

Si le trafic d'une variante devient nul, l' SageMaker IA s'adapte automatiquement au nombre minimum d'instances spécifié. Dans ce cas, SageMaker l'IA émet des métriques d'une valeur nulle.

Il existe trois options pour définir la capacité minimale et maximale :

Utilisez la console pour mettre à jour les paramètres Nombre minimal d'instances et Nombre maximal d'instances.
Utilisez les options AWS CLI et incluez les --max-capacity options --min-capacity et lors de l'exécution de la register-scalable-targetcommande.
Appelez le RegisterScalableTargetAPIet spécifiez les MaxCapacity paramètres MinCapacity et.

Astuce

Vous pouvez redimensionner manuellement en augmentant la valeur minimale ou redimensionner manuellement en diminuant la valeur maximale.

Temps de stabilisation

Une période de recharge permet de se protéger contre le surdimensionnement lorsque votre modèle est redimensionné (réduction de la capacité) ou redimensionné (augmentation de la capacité). Pour ce faire, il ralentit les activités de dimensionnement ultérieures jusqu'à l'expiration de la période. Plus précisément, il bloque la suppression d'instances pour les demandes de scale-in et limite la création d'instances pour les demandes scale-out. Pour plus d'informations, consultez la section Définir les périodes de refroidissement dans le Guide de l'utilisateur d'Application Auto Scaling.

Vous configurez la période de recharge dans votre politique de dimensionnement.

Si vous ne spécifiez pas de délai de redimensionnement initial ou dégressif, votre politique de dimensionnement utilise la valeur par défaut, qui est de 300 secondes pour chacune d'elles.

Si des instances sont ajoutées ou supprimées trop rapidement lorsque vous testez votre configuration de dimensionnement, pensez à augmenter cette valeur. Ce comportement peut se produire si le trafic vers votre modèle connaît de nombreux pics ou si vous avez défini plusieurs politiques de dimensionnement pour une variante.

Si les instances ne sont pas ajoutées assez rapidement pour répondre à une augmentation du trafic, envisagez de diminuer la valeur.

Pour plus d'informations sur la configuration de l'autoscaling, consultez les ressources suivantes :

Section application-autoscaling du document Référence des commandes AWS CLI
APIRéférence d'Application Auto Scaling
Guide de l’utilisateur Application Auto Scaling

Note

SageMaker L'IA a récemment introduit de nouvelles fonctionnalités d'inférence basées sur des points de terminaison d'inférence en temps réel. Vous créez un point de terminaison SageMaker AI avec une configuration de point de terminaison qui définit le type d'instance et le nombre d'instances initial pour le point de terminaison. Créez ensuite un composant d'inférence, qui est un objet d'hébergement d' SageMaker IA que vous pouvez utiliser pour déployer un modèle sur un point de terminaison. Pour plus d'informations sur la mise à l'échelle des composants d'inférence, voir L'SageMaker IA ajoute de nouvelles fonctionnalités d'inférence pour aider à réduire les coûts de déploiement et la latence des modèles de base et à réduire les coûts de déploiement des modèles de 50 % en moyenne en utilisant les dernières fonctionnalités de l' SageMaker IA sur le AWS blog.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Dimensionnement automatique

Prérequis