Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Aufrufen eines Serverless-Endpunktes
Um Inferenzen mithilfe eines serverlosen Endpunkts durchzuführen, müssen Sie eine HTTP Anfrage an den Endpunkt senden. Sie können die InvokeEndpointAPIoder die verwenden AWS CLI, die eine POST
Anfrage stellen, um Ihren Endpunkt aufzurufen. Die maximale Größe der Nutzdaten für Anfragen und Antworten für Serverless-Aufrufe beträgt 4 MB. Für Serverlesse Endpunkte:
Das Modell muss heruntergeladen werden und der Server muss innerhalb von 3 Minuten erfolgreich auf
/ping
antworten.Das Timeout, bis zu dem der Container Inferenzanfragen an
/invocations
beantworten muss, beträgt 1 Minute.
Zum Aufrufen eines Endpunktes
Im folgenden Beispiel wird AWS SDKfor Python (Boto3)InvokeEndpoint
SageMaker Runtime Runtime als Client verwenden müssen. Geben Sie die folgenden Werte an:
-
Verwenden Sie für
endpoint_name
den Namen des betriebsbereiten Serverless-Endpunkts, den Sie aufrufen möchten. -
Geben Sie für
content_type
den MIME Typ Ihrer Eingabedaten im Hauptteil der Anfrage an (z. B.application/json
). -
Verwenden Sie für
payload
Ihre „Nutzlast anfordern“ als Inferenz. Ihre Nutzlast sollte in Byte oder als dateiähnliches Objekt angegeben werden.
runtime = boto3.client("sagemaker-runtime") endpoint_name = "
<your-endpoint-name>
" content_type = "<request-mime-type>
" payload =<your-request-body>
response = runtime.invoke_endpoint( EndpointName=endpoint_name, ContentType=content_type, Body=payload )