Aufrufen eines Serverless-Endpunktes - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Aufrufen eines Serverless-Endpunktes

Um Inferenzen mithilfe eines serverlosen Endpunkts durchzuführen, müssen Sie eine HTTP Anfrage an den Endpunkt senden. Sie können die InvokeEndpointAPIoder die verwenden AWS CLI, die eine POST Anfrage stellen, um Ihren Endpunkt aufzurufen. Die maximale Größe der Nutzdaten für Anfragen und Antworten für Serverless-Aufrufe beträgt 4 MB. Für Serverlesse Endpunkte:

  • Das Modell muss heruntergeladen werden und der Server muss innerhalb von 3 Minuten erfolgreich auf /ping antworten.

  • Das Timeout, bis zu dem der Container Inferenzanfragen an /invocations beantworten muss, beträgt 1 Minute.

Zum Aufrufen eines Endpunktes

Im folgenden Beispiel wird AWS SDKfor Python (Boto3) verwendet, um den aufzurufen. InvokeEndpointAPI Beachten Sie, dass Sie im Gegensatz zu den anderen API Aufrufen in diesem Handbuch für InvokeEndpoint SageMaker Runtime Runtime als Client verwenden müssen. Geben Sie die folgenden Werte an:

  • Verwenden Sie für endpoint_name den Namen des betriebsbereiten Serverless-Endpunkts, den Sie aufrufen möchten.

  • Geben Sie für content_type den MIME Typ Ihrer Eingabedaten im Hauptteil der Anfrage an (z. B.application/json).

  • Verwenden Sie fürpayload Ihre „Nutzlast anfordern“ als Inferenz. Ihre Nutzlast sollte in Byte oder als dateiähnliches Objekt angegeben werden.

runtime = boto3.client("sagemaker-runtime") endpoint_name = "<your-endpoint-name>" content_type = "<request-mime-type>" payload = <your-request-body> response = runtime.invoke_endpoint( EndpointName=endpoint_name, ContentType=content_type, Body=payload )