Comment ça marche Comment bénéficier du service ?

Inférence asynchrone

Amazon SageMaker Asynchronous Inference est une fonctionnalité de l' SageMaker IA qui met en file d'attente les demandes entrantes et les traite de manière asynchrone. Cette option est idéale pour les demandes avec des charges utiles importantes (allant jusqu'à 1 Go), des temps de traitement longs (allant jusqu'à une heure) et des exigences de latence en temps quasi réel. L'inférence asynchrone vous permet d'économiser sur les coûts en faisant automatiquement passer le nombre d'instances à zéro lorsqu'il n'y a aucune requête à traiter. Ainsi, vous ne payez que lorsque votre point de terminaison traite les requêtes.

Comment ça marche

La création de points de terminaison d'inférence asynchrone est similaire à la création de points de terminaison d'inférence en temps réel. Vous pouvez utiliser vos modèles d' SageMaker IA existants et il vous suffit de spécifier l'AsyncInferenceConfigobjet lors de la création de la configuration de votre point de terminaison avec le EndpointConfig champ de l'CreateEndpointConfigAPI. Le diagramme suivant illustre l'architecture et le flux de travail de l'inférence asynchrone.

Diagramme d’architecture d’inférence asynchrone illustrant comment un utilisateur invoque un point de terminaison.

Pour invoquer le point de terminaison, vous devez placer les données utiles de la demande dans Amazon S3. Vous devez également fournir un pointeur vers ces données utiles dans le cadre de la demande InvokeEndpointAsync. Lors de l'invocation, l' SageMaker IA met la demande en file d'attente pour traitement et renvoie un identifiant et un emplacement de sortie en réponse. Lors du traitement, l' SageMaker IA place le résultat dans l'emplacement Amazon S3. Vous pouvez choisir de recevoir des notifications de réussite ou d'erreur avec Amazon SNS. Pour plus d’informations sur la configuration des notifications asynchrones, consultez Vérifier les résultats de la prédiction.

Note

En cas de configuration d'inférence asynchrone (AsyncInferenceConfig) dans la configuration des points de terminaison, le point de terminaison ne peut recevoir que des appels asynchrones.

Comment bénéficier du service ?

Si vous utilisez Amazon SageMaker Asynchronous Inference pour la première fois, nous vous recommandons de procéder comme suit :

Lisez Opérations des points de terminaison asynchrones pour savoir comment créer, invoquer, mettre à jour et supprimer des points de terminaison asynchrones.
Explorez le bloc-notes d'exemples d'inférence asynchrone dans le référentiel -sagemaker-examplesaws/amazon. GitHub

Notez que si votre point de terminaison utilise l'une des fonctions répertoriées sur la page Exclusions, vous ne pouvez pas utiliser l'inférence asynchrone.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Résolution des problèmes

Opérations des points de terminaison asynchrones