Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Appeler un point de terminaison sans serveur
Pour effectuer une inférence à l'aide d'un point de terminaison sans serveur, vous devez envoyer une HTTP demande au point de terminaison. Vous pouvez utiliser le InvokeEndpointAPIou le AWS CLI, qui font une POST
demande pour appeler votre point de terminaison. La taille maximale de la charge utile de demande et de réponse pour les appels sans serveur est de 4 Mo. Pour les points de terminaison sans serveur :
Le modèle doit être téléchargé et le serveur doit répondre avec succès à
/ping
dans les 3 minutes.Le délai d'attente du conteneur pour répondre aux demandes d'inférence à
/invocations
est de 1 minute.
Pour appeler un point de terminaison
L'exemple suivant utilise AWS SDKfor Python (Boto3)InvokeEndpoint
, vous devez utiliser SageMaker Runtime Runtime comme client. Indiquez l'une des valeurs suivantes :
-
Pour
endpoint_name
, utilisez le nom du point de terminaison sans serveur en service que vous souhaitez appeler. -
Pour
content_type
, spécifiez le MIME type de vos données d'entrée dans le corps de la demande (par exemple,application/json
). -
Pour
payload
, utilisez la charge utile de votre demande pour l'inférence. Votre charge utile doit être en octets ou en objet de type fichier.
runtime = boto3.client("sagemaker-runtime") endpoint_name = "
<your-endpoint-name>
" content_type = "<request-mime-type>
" payload =<your-request-body>
response = runtime.invoke_endpoint( EndpointName=endpoint_name, ContentType=content_type, Body=payload )