Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Inférence asynchrone
Amazon SageMaker Asynchronous Inference est une fonctionnalité de l' SageMaker IA qui met en file d'attente les demandes entrantes et les traite de manière asynchrone. Cette option est idéale pour les demandes avec des charges utiles importantes (allant jusqu'à 1 Go), des temps de traitement longs (allant jusqu'à une heure) et des exigences de latence en temps quasi réel. L'inférence asynchrone vous permet d'économiser sur les coûts en faisant automatiquement passer le nombre d'instances à zéro lorsqu'il n'y a aucune requête à traiter. Ainsi, vous ne payez que lorsque votre point de terminaison traite les requêtes.
Comment ça marche
La création de points de terminaison d'inférence asynchrone est similaire à la création de points de terminaison d'inférence en temps réel. Vous pouvez utiliser vos modèles d' SageMaker IA existants et il vous suffit de spécifier l'AsyncInferenceConfig
objet lors de la création de la configuration de votre point de terminaison avec le EndpointConfig
champ de l'CreateEndpointConfig
API. Le diagramme suivant illustre l'architecture et le flux de travail de l'inférence asynchrone.

Pour appeler le point de terminaison, vous devez placer la charge utile de la demande dans Amazon S3. Vous devez également fournir un pointeur vers cette charge utile dans le cadre de la InvokeEndpointAsync
demande. Lors de l'invocation, l' SageMaker IA met la demande en file d'attente pour traitement et renvoie un identifiant et un emplacement de sortie en réponse. Lors du traitement, l' SageMaker IA place le résultat dans l'emplacement Amazon S3. Vous pouvez choisir de recevoir des notifications de réussite ou d'erreur avec Amazon SNS. Pour plus d'informations sur la configuration des notifications asynchrones, veuillez consulter Vérifier les résultats de la prédiction.
Note
En cas de configuration d'inférence asynchrone (AsyncInferenceConfig
) dans la configuration des points de terminaison, le point de terminaison ne peut recevoir que des appels asynchrones.
Comment bénéficier du service ?
Si vous utilisez Amazon SageMaker Asynchronous Inference pour la première fois, nous vous recommandons de procéder comme suit :
-
Lisez Opérations asynchrones sur les terminaux pour savoir comment créer, invoquer, mettre à jour et supprimer des points de terminaison asynchrones.
-
Explorez le bloc-notes d'exemple d'inférence asynchrone
dans le référentiel aws/. amazon-sagemaker-examples GitHub
Notez que si votre point de terminaison utilise l'une des fonctions répertoriées sur la page Exclusions, vous ne pouvez pas utiliser l'inférence asynchrone.