Inférence asynchrone - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Inférence asynchrone

Amazon SageMaker Asynchronous Inference est une fonctionnalité SageMaker qui met en file d'attente les demandes entrantes et les traite de manière asynchrone. Cette option est idéale pour les demandes avec des charges utiles importantes (allant jusqu'à 1 Go), des temps de traitement longs (allant jusqu'à une heure) et des exigences de latence en temps quasi réel. L'inférence asynchrone vous permet d'économiser sur les coûts en faisant automatiquement passer le nombre d'instances à zéro lorsqu'il n'y a aucune requête à traiter. Ainsi, vous ne payez que lorsque votre point de terminaison traite les requêtes.

Comment ça marche

La création de points de terminaison d'inférence asynchrone est similaire à la création de points de terminaison d'inférence en temps réel. Vous pouvez utiliser vos SageMaker modèles existants et il vous suffit de spécifier l'AsyncInferenceConfigobjet lors de la création de la configuration de votre point de terminaison avec le EndpointConfig champ de l'CreateEndpointConfigAPI. Le diagramme suivant illustre l'architecture et le flux de travail de l'inférence asynchrone.

Schéma d'architecture de l'inférence asynchrone montrant comment un utilisateur invoque un point de terminaison.

Pour appeler le point de terminaison, vous devez placer la charge utile de la demande dans Amazon S3. Vous devez également fournir un pointeur vers cette charge utile dans le cadre de la InvokeEndpointAsync demande. Lors de l'invocation, SageMaker met la demande en file d'attente pour traitement et renvoie un identifiant et un emplacement de sortie en réponse. Après le traitement, SageMaker place le résultat dans l'emplacement Amazon S3. Vous pouvez choisir de recevoir des notifications de réussite ou d'erreur avec Amazon SNS. Pour plus d'informations sur la configuration des notifications asynchrones, veuillez consulter Vérifier les résultats de la prédiction.

Note

En cas de configuration d'inférence asynchrone (AsyncInferenceConfig) dans la configuration des points de terminaison, le point de terminaison ne peut recevoir que des appels asynchrones.

Comment bénéficier du service ?

Si vous utilisez Amazon SageMaker Asynchronous Inference pour la première fois, nous vous recommandons de procéder comme suit :

Notez que si votre point de terminaison utilise l'une des fonctions répertoriées sur la page Exclusions, vous ne pouvez pas utiliser l'inférence asynchrone.