Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Scalabilité automatique de points de terminaison multi-conteneurs
Si vous souhaitez configurer le dimensionnement automatique pour un point de terminaison multi-conteneurs à l'aide de la InvocationsPerInstance
métrique, nous recommandons que le modèle de chaque conteneur présente une CPU utilisation et une latence similaires pour chaque demande d'inférence. Cela est recommandé car si le trafic vers le point de terminaison à conteneurs multiples passe d'un modèle à faible CPU utilisation à un modèle à CPU utilisation élevée, mais que le volume global d'appels reste le même, le point de terminaison ne sera pas redimensionné et il se peut qu'il n'y ait pas suffisamment d'instances pour traiter toutes les demandes adressées au modèle d'CPUutilisation élevée. Pour obtenir des informations sur la capacité de mise à l'échelle automatique des points de terminaison, veuillez consulter Mise à l'échelle automatique des modèles Amazon SageMaker AI.