Appeler un point de terminaison sans serveur - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Appeler un point de terminaison sans serveur

Pour effectuer une inférence à l'aide d'un point de terminaison sans serveur, vous devez envoyer une HTTP demande au point de terminaison. Vous pouvez utiliser le InvokeEndpointAPIou le AWS CLI, qui font une POST demande pour appeler votre point de terminaison. La taille maximale de la charge utile de demande et de réponse pour les appels sans serveur est de 4 Mo. Pour les points de terminaison sans serveur :

  • Le modèle doit être téléchargé et le serveur doit répondre avec succès à /ping dans les 3 minutes.

  • Le délai d'attente du conteneur pour répondre aux demandes d'inférence à /invocations est de 1 minute.

Pour appeler un point de terminaison

L'exemple suivant utilise AWS SDKfor Python (Boto3) pour appeler le. InvokeEndpointAPI Notez que contrairement aux autres API appels de ce guide, pourInvokeEndpoint, vous devez utiliser SageMaker Runtime Runtime comme client. Indiquez l'une des valeurs suivantes :

  • Pour endpoint_name, utilisez le nom du point de terminaison sans serveur en service que vous souhaitez appeler.

  • Pourcontent_type, spécifiez le MIME type de vos données d'entrée dans le corps de la demande (par exemple,application/json).

  • Pour payload, utilisez la charge utile de votre demande pour l'inférence. Votre charge utile doit être en octets ou en objet de type fichier.

runtime = boto3.client("sagemaker-runtime") endpoint_name = "<your-endpoint-name>" content_type = "<request-mime-type>" payload = <your-request-body> response = runtime.invoke_endpoint( EndpointName=endpoint_name, ContentType=content_type, Body=payload )