Bonnes pratiques - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Bonnes pratiques

Lors de la création d'une expérience d'inférence, gardez à l'esprit les informations suivantes :

  • Pourcentage d'échantillonnage du trafic : l'échantillonnage de 100 % des demandes d'inférence vous permet de vérifier que votre variante shadow peut gérer le trafic de production lorsqu'elle est promue. Vous pouvez commencer avec un pourcentage d'échantillonnage de trafic plus faible et passer à la vitesse supérieure à mesure que vous gagnez en confiance avec votre variante, mais il est préférable de vous assurer d'avoir augmenté le trafic à 100 % avant la promotion.

  • Type d'instance : à moins que vous n'utilisiez des variantes shadow pour évaluer d'autres types ou tailles d'instance, nous vous recommandons d'utiliser le même type, la même taille et le même nombre d'instances afin de vous assurer que votre variante shadow peut gérer le volume de demandes d'inférence une fois que vous l'avez promue.

  • Mise à l'échelle automatique : pour vous assurer que votre variante shadow peut répondre à des pics de demandes d'inférence ou à des modifications des modèles de demandes d'inférence, nous vous recommandons vivement de configurer la mise à l'échelle automatique sur vos variantes shadow. Pour en savoir plus sur comment configurer la mise à l'échelle automatique, consultez Mise à l'échelle automatique des modèles Amazon SageMaker AI. Si vous avez configuré la mise à l'échelle automatique, vous pouvez également valider les modifications apportées aux politiques de mise à l'échelle automatique sans impact sur les utilisateurs.

  • Surveillance des métriques : une fois que vous avez lancé une expérience shadow et que vous avez reçu suffisamment d'appels, surveillez le tableau de bord des métriques pour vous assurer que les métriques telles que la latence et le taux d'erreur se situent dans des limites acceptables. Cela vous permet de détecter rapidement les erreurs de configuration et de prendre des mesures correctives. Pour plus d'informations sur comment surveiller les métriques d'une expérience d'inférence en cours, consultez Comment afficher, surveiller et modifier des tests parallèles.