Mise à l'échelle automatique de la simultanéité provisionnée pour un point de terminaison sans serveur

Mode de mise au point

Mise à l'échelle automatique de la simultanéité provisionnée pour un point de terminaison sans serveur - Amazon SageMaker AI

Enregistrement d'un modèle Définition d'une stratégie de mise à l'échelle Application d'une stratégie de mise à l'échelle

Amazon SageMaker AI intègre ou déconnecte automatiquement les points de terminaison sans serveur à la demande. Pour les points de terminaison sans serveur dotés d'une simultanéité provisionnée, vous pouvez utiliser Application Auto Scaling pour augmenter ou réduire la simultanéité provisionnée en fonction de votre profil de trafic, optimisant ainsi les coûts.

Les conditions préalables requises pour automatiquement mettre à l'échelle la simultanéité provisionnée sur les points de terminaison sans serveur sont les suivantes :

Enregistrement d'un modèle
Définition d'une stratégie de mise à l'échelle
Application d'une stratégie de mise à l'échelle

Avant de pouvoir utiliser la mise à l'échelle automatique, vous devez avoir déjà déployé un modèle vers un point de terminaison sans serveur avec la simultanéité provisionnée. Les modèles déployés sont appelés variante de production. Consultez Créer une configuration de point de terminaison et Créer un point de terminaison pour plus d'informations sur le déploiement d'un modèle sur un point de terminaison sans serveur avec la simultanéité provisionnée. Pour spécifier les métriques et les valeurs cibles d'une politique de mise à l'échelle, vous devez configurer une politique de mise à l'échelle. Pour plus d'informations sur comment définir une politique de mise à l'échelle, consultez Définition d'une stratégie de mise à l'échelle. Après avoir enregistré votre modèle et défini une stratégie de mise à l'échelle, appliquez cette stratégie au modèle enregistré. Pour en savoir plus sur comment appliquer la politique de mise à l'échelle, consultez Application d'une stratégie de mise à l'échelle.

Pour plus de détails sur les autres prérequis et composants utilisés avec le dimensionnement automatique, consultez la Prérequis pour le dimensionnement automatique section de la documentation sur le dimensionnement automatique de l'SageMaker IA.

Enregistrement d'un modèle

Pour ajouter l'autoscaling à un point de terminaison sans serveur avec Provisioned Concurrency, vous devez d'abord enregistrer votre modèle (variante de production) à l'aide de l'API Application AWS CLI Auto Scaling.

Enregistrement d'un modèle (AWS CLI)

Pour enregistrer votre modèle, utilisez la register-scalable-target AWS CLI commande avec les paramètres suivants :

--service-namespace – Définissez cette valeur sur sagemaker.
--resource-id : l'identifiant de la ressource pour le modèle (plus précisément, la variante de production). Pour ce paramètre, le type de ressource est endpoint et l'identifiant unique est le nom de la variante de production. Par exemple, endpoint/MyEndpoint/variant/MyVariant.
--scalable-dimension – Définissez cette valeur sur sagemaker:variant:DesiredProvisionedConcurrency.
--min-capacity : le nombre minimum de simultanéité provisionnée pour le modèle. Définissez --min-capacity sur au moins 1. La valeur doit être inférieure ou égale à celle spécifiée pour --max-capacity.
--max-capacity : le nombre maximum de simultanéité provisionnée qui doit être activée via Application Auto Scaling. Définissez --max-capacity sur 1 au minimum. Cette valeur doit être supérieure ou égale à la valeur spécifiée pour --min-capacity.

L'exemple suivant montre comment enregistrer un modèle nommé MyVariant qui est mis à l'échelle de façon dynamique pour avoir une valeur de simultanéité provisionnée de 1 à 10 :


aws application-autoscaling register-scalable-target \
    --service-namespace sagemaker \
    --scalable-dimension sagemaker:variant:DesiredProvisionedConcurrency \
    --resource-id endpoint/MyEndpoint/variant/MyVariant \
    --min-capacity 1 \
    --max-capacity 10

Enregistrement d'un modèle (API Application Auto Scaling)

Pour enregistrer votre modèle, utilisez l'action d'API Application Auto Scaling RegisterScalableTarget avec les paramètres suivants :

ServiceNamespace – Définissez cette valeur sur sagemaker.
ResourceId : l'identifiant de la ressource pour le modèle (plus précisément, la variante de production). Pour ce paramètre, le type de ressource est endpoint et l'identifiant unique est le nom de la variante de production. Par exemple, endpoint/MyEndpoint/variant/MyVariant.
ScalableDimension – Définissez cette valeur sur sagemaker:variant:DesiredProvisionedConcurrency.
MinCapacity : le nombre minimum de simultanéité provisionnée pour le modèle. Définissez MinCapacity sur au moins 1. La valeur doit être inférieure ou égale à celle spécifiée pour MaxCapacity.
MaxCapacity : le nombre maximum de simultanéité provisionnée qui doit être activée via Application Auto Scaling. Définissez MaxCapacity sur 1 au minimum. Cette valeur doit être supérieure ou égale à la valeur spécifiée pour MinCapacity.

L'exemple suivant montre comment enregistrer un modèle nommé MyVariant qui est mis à l'échelle de façon dynamique pour avoir une valeur de simultanéité provisionnée de 1 à 10 :


POST / HTTP/1.1
Host: autoscaling.us-east-2.amazonaws.com
Accept-Encoding: identity
X-Amz-Target: AnyScaleFrontendService.RegisterScalableTarget
X-Amz-Date: 20160506T182145Z
User-Agent: aws-cli/1.10.23 Python/2.7.11 Darwin/15.4.0 botocore/1.4.8
Content-Type: application/x-amz-json-1.1
Authorization: AUTHPARAMS

{
    "ServiceNamespace": "sagemaker",
    "ResourceId": "endpoint/MyEndPoint/variant/MyVariant",
    "ScalableDimension": "sagemaker:variant:DesiredProvisionedConcurrency",
    "MinCapacity": 1,
    "MaxCapacity": 10
}

Définition d'une stratégie de mise à l'échelle

Pour spécifier les métriques et les valeurs cibles d'une stratégie de mise à l'échelle automatique, vous configurez une stratégie de mise à l'échelle automatique avec suivi de cible. Définissez la politique de mise à l'échelle sous forme de bloc JSON dans un fichier texte. Vous pouvez ensuite utiliser ce fichier texte lorsque vous appelez l'API Application Auto Scaling AWS CLI ou l'API Application Auto Scaling. Pour définir rapidement la politique de mise à l'échelle avec suivi de cible pour un point de terminaison sans serveur, utilisez la métrique SageMakerVariantProvisionedConcurrencyUtilization prédéfinie.


{
    "TargetValue": 0.5,
    "PredefinedMetricSpecification": 
    {
        "PredefinedMetricType": "SageMakerVariantProvisionedConcurrencyUtilization"
    },
    "ScaleOutCooldown": 1,
    "ScaleInCooldown": 1
}

Application d'une stratégie de mise à l'échelle

Après avoir enregistré votre modèle, vous pouvez appliquer une politique de mise à l'échelle à votre point de terminaison sans serveur avec la simultanéité provisionnée. Consultez Application d'une politique de mise à l'échelle avec suivi de cible pour appliquer une politique de mise à l'échelle avec suivi de cible que vous avez définie. Si le flux de trafic vers votre point de terminaison sans serveur suit une routine prévisible, au lieu d'appliquer une politique de mise à l'échelle avec suivi de cible, vous souhaiterez peut-être planifier des actions de mise à l'échelle à des moments précis. Pour plus d'informations sur la planification d'actions de mise à l'échelle, consultez Mise à l’échelle planifiée.

Application d'une politique de mise à l'échelle avec suivi de cible

Vous pouvez utiliser l' AWS Management Console API Application Auto Scaling AWS CLI ou l'API Application Auto Scaling pour appliquer une politique de dimensionnement du suivi des cibles à votre point de terminaison sans serveur avec Provisioned Concurrency.

Application d'une politique de mise à l'échelle avec suivi de cible (AWS CLI)

Pour appliquer une politique de mise à l'échelle à votre modèle, utilisez la commande put-scaling-policy de l' AWS CLI avec les paramètres suivants :

--policy-name – Nom de la stratégie de mise à l'échelle.
--policy-type – Définissez cette valeur sur TargetTrackingScaling.
--resource-id : identifiant de la ressource pour la variante. Pour ce paramètre, le type de ressource est endpoint et l'identifiant unique est le nom de la variante. Par exemple, endpoint/MyEndpoint/variant/MyVariant.
--service-namespace – Définissez cette valeur sur sagemaker.
--scalable-dimension – Définissez cette valeur sur sagemaker:variant:DesiredProvisionedConcurrency.
--target-tracking-scaling-policy-configuration : la configuration de la politique de mise à l'échelle avec suivi de cible à utiliser pour le modèle.

L'exemple suivant montre comment appliquer une politique de mise à l'échelle avec suivi de cible nommée MyScalingPolicy à une variante nommée MyVariant. La configuration de stratégie est enregistrée dans un fichier nommé scaling-policy.json.


aws application-autoscaling put-scaling-policy \
    --policy-name MyScalingPolicy \
    --policy-type TargetTrackingScaling \
    --service-namespace sagemaker \
    --scalable-dimension sagemaker:variant:DesiredProvisionedConcurrency \
    --resource-id endpoint/MyEndpoint/variant/MyVariant \
    --target-tracking-scaling-policy-configuration file://[file-localtion]/scaling-policy.json

Application d'une politique de mise à l'échelle avec suivi de cible (API Application Auto Scaling)

Pour appliquer une politique de mise à l'échelle à votre modèle, utilisez l'action PutScalingPolicy de l'API Application Auto Scaling avec les paramètres suivants :

PolicyName – Nom de la stratégie de mise à l'échelle.
PolicyType – Définissez cette valeur sur TargetTrackingScaling.
ResourceId : identifiant de la ressource pour la variante. Pour ce paramètre, le type de ressource est endpoint et l'identifiant unique est le nom de la variante. Par exemple, endpoint/MyEndpoint/variant/MyVariant.
ServiceNamespace – Définissez cette valeur sur sagemaker.
ScalableDimension – Définissez cette valeur sur sagemaker:variant:DesiredProvisionedConcurrency.
TargetTrackingScalingPolicyConfiguration : la configuration de la politique de mise à l'échelle avec suivi de cible à utiliser pour le modèle.


POST / HTTP/1.1
Host: autoscaling.us-east-2.amazonaws.com
Accept-Encoding: identity
X-Amz-Target: AnyScaleFrontendService.PutScalingPolicy
X-Amz-Date: 20160506T182145Z
User-Agent: aws-cli/1.10.23 Python/2.7.11 Darwin/15.4.0 botocore/1.4.8
Content-Type: application/x-amz-json-1.1
Authorization: AUTHPARAMS

{
    "PolicyName": "MyScalingPolicy",
    "ServiceNamespace": "sagemaker",
    "ResourceId": "endpoint/MyEndpoint/variant/MyVariant",
    "ScalableDimension": "sagemaker:variant:DesiredProvisionedConcurrency",
    "PolicyType": "TargetTrackingScaling",
    "TargetTrackingScalingPolicyConfiguration": 
    {
        "TargetValue": 0.5,
        "PredefinedMetricSpecification": 
        {
            "PredefinedMetricType": "SageMakerVariantProvisionedConcurrencyUtilization"
        }
    }
}

Application d'une politique de mise à l'échelle avec suivi de cible (AWS Management Console)

Pour appliquer une politique de dimensionnement axée sur le suivi des cibles avec : AWS Management Console

Connectez-vous à la console Amazon SageMaker AI.
Sous le volet de navigation, sélectionnez Inference (Inférence).
Choisissez Points de terminaison pour afficher la liste de tous vos points de terminaison.
Choisissez le point de terminaison auquel vous souhaitez appliquer la politique de mise à l'échelle. Une page contenant les paramètres du point de terminaison apparaîtra, avec les modèles (variante de production) répertoriés dans la section Paramètres d'exécution de point de terminaison.
Sélectionnez la variante de production à laquelle vous souhaitez appliquer la politique de mise à l'échelle, puis choisissez Configurer la scalabilité automatique. La boîte de dialogue Configurer la scalabilité automatique d'une variante s'affiche.
Entrez les valeurs de simultanéité provisionnée minimale et maximale dans les champs Simultanéité provisionnée minimale et Simultanéité provisionnée maximale dans la section Scalabilité automatique d'une variante. La simultanéité provisionnée minimale doit être inférieure ou égale à la simultanéité provisionnée maximale.
Entrez la valeur cible dans le champ Valeur cible pour la métrique cible, SageMakerVariantProvisionedConcurrencyUtilization.
(Facultatif) Entrez les valeurs de stabilisation de la diminution en charge et de la montée en charge (en secondes) dans les champs Stabilisation de la diminution en charge et Stabilisation de la montée en charge respectivement.
(Facultatif) Sélectionnez Désactiver la diminution en charge si vous ne souhaitez pas qu'Auto Scaling supprime l'instance lorsque le trafic diminue.
Sélectionnez Save.

Mise à l’échelle planifiée

Si le trafic vers votre point de terminaison sans serveur avec la simultanéité provisionnée suit un schéma de routine, vous souhaiterez peut-être planifier des actions de mise à l'échelle à des moments précis, afin d'effectuer une mise à l'échelle horizontale ou une montée en puissance de la simultanéité provisionnée. Vous pouvez utiliser le AWS CLI ou l'Application Auto Scaling pour planifier des actions de dimensionnement.

Mise à l'échelle planifiée (AWS CLI)

Pour appliquer une politique de dimensionnement à votre modèle, utilisez la commande put-scheduled-action AWS CLI ; avec les paramètres suivants :

--schedule-action-name : nom de l'action de mise à l'échelle.
--schedule : expression cron qui spécifie les heures de début et de fin de l'action de mise à l'échelle selon un calendrier récurrent.
--resource-id : identifiant de la ressource pour la variante. Pour ce paramètre, le type de ressource est endpoint et l'identifiant unique est le nom de la variante. Par exemple, endpoint/MyEndpoint/variant/MyVariant.
--service-namespace – Définissez cette valeur sur sagemaker.
--scalable-dimension – Définissez cette valeur sur sagemaker:variant:DesiredProvisionedConcurrency.
--scalable-target-action : cible de l'action de mise à l'échelle.

L'exemple suivant montre comment ajouter une action de mise à l'échelle nommée MyScalingAction vers un modèle nommé MyVariant selon un calendrier récurrent. Selon le calendrier spécifié (tous les jours à 12 h 15 UTC), si la simultanéité provisionnée actuelle est inférieure à la valeur spécifiée pour MinCapacity. Application Auto Scaling faire monter en puissance la simultanéité provisionnée à la valeur spécifiée par MinCapacity.


aws application-autoscaling put-scheduled-action \
    --scheduled-action-name 'MyScalingAction' \
    --schedule 'cron(15 12 * * ? *)' \
    --service-namespace sagemaker \
    --resource-id endpoint/MyEndpoint/variant/MyVariant \
    --scalable-dimension sagemaker:variant:DesiredProvisionedConcurrency \
    --scalable-target-action 'MinCapacity=10'

Mise à l'échelle planifiée (API Application Auto Scaling)

Pour appliquer une politique de mise à l'échelle à votre modèle, utilisez l'action PutScheduledAction de l'API Application Auto Scaling avec les paramètres suivants :

ScheduleActionName : nom de l'action de mise à l'échelle.
Schedule : expression cron qui spécifie les heures de début et de fin de l'action de mise à l'échelle selon un calendrier récurrent.
ResourceId : identifiant de la ressource pour la variante. Pour ce paramètre, le type de ressource est endpoint et l'identifiant unique est le nom de la variante. Par exemple, endpoint/MyEndpoint/variant/MyVariant.
ServiceNamespace – Définissez cette valeur sur sagemaker.
ScalableDimension – Définissez cette valeur sur sagemaker:variant:DesiredProvisionedConcurrency.
ScalableTargetAction : cible de l'action de mise à l'échelle.


POST / HTTP/1.1
Host: autoscaling.us-east-2.amazonaws.com
Accept-Encoding: identity
X-Amz-Target: AnyScaleFrontendService.PutScheduledAction
X-Amz-Date: 20160506T182145Z
User-Agent: aws-cli/1.10.23 Python/2.7.11 Darwin/15.4.0 botocore/1.4.8
Content-Type: application/x-amz-json-1.1
Authorization: AUTHPARAMS

{
    "ScheduledActionName": "MyScalingAction",
    "Schedule": "cron(15 12 * * ? *)",
    "ServiceNamespace": "sagemaker",
    "ResourceId": "endpoint/MyEndpoint/variant/MyVariant",
    "ScalableDimension": "sagemaker:variant:DesiredProvisionedConcurrency",
    "ScalableTargetAction": "MinCapacity=10"
        }
    }
}

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Alarmes et journaux

Nettoyage

Sur cette page

Sélectionner vos préférences de cookies

Personnaliser les préférences de cookies

Essentiels

Performances

Fonctionnels

Publicitaires

Impossible d'enregistrer les préférences concernant les cookies