Asynchrone Inferenz-Inferenz - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Asynchrone Inferenz-Inferenz

Amazon SageMaker Asynchronous Inference ist eine SageMaker KI-Funktion, die eingehende Anfragen in die Warteschlange stellt und sie asynchron verarbeitet. Diese Option ist ideal für Anfragen mit großen Nutzlasten (bis zu 1 GB), langen Verarbeitungszeiten (bis zu einer Stunde) und Latenzanforderungen nahezu in Echtzeit. Asynchrone Inferenz ermöglicht es Ihnen, Kosten zu sparen, indem Sie die Anzahl der Instances automatisch auf Null skalieren, wenn keine Anfragen zu verarbeiten sind. Sie zahlen also nur, wenn Ihr Endpunkt Anfragen verarbeitet.

So funktioniert’s

Die Erstellung eines asynchronen Inferenzendpunkts ähnelt der Erstellung von Echtzeit-Inferenzendpunkten. Sie können Ihre vorhandenen SageMaker KI-Modelle verwenden und müssen nur das AsyncInferenceConfig Objekt angeben, während Sie Ihre Endpunktkonfiguration mit dem EndpointConfig Feld in der API erstellen. CreateEndpointConfig Das folgende Diagramm zeigt die Architektur und den Arbeitsablauf von Asynchronous Inference.

Architekturdiagramm von Asynchronous Inference, das zeigt, wie ein Benutzer einen Endpunkt aufruft.

Um den Endpunkt aufzurufen, müssen Sie die Payload der Anfrage in Amazon S3 platzieren. Sie müssen als Teil der Anfrage auch einen Verweis auf diese Payload angeben. InvokeEndpointAsync Beim Aufruf stellt SageMaker AI die Anfrage zur Verarbeitung in eine Warteschlange und gibt als Antwort eine Kennung und einen Ausgabeort zurück. Nach der Verarbeitung platziert SageMaker KI das Ergebnis am Amazon S3 S3-Standort. Sie können optional wählen, ob Sie Erfolgs- oder Fehlerbenachrichtigungen mit Amazon SNS erhalten möchten. Weitere Informationen zum Einrichten asynchroner Benachrichtigungen finden Sie unter Überprüfen Sie die Ergebnisse der Prognose.

Anmerkung

Das Vorhandensein eines asynchronen Inferenz-Configuration (AsyncInferenceConfig) Objekts in der Endpunktkonfiguration bedeutet, dass der Endpunkt nur asynchrone Aufrufe empfangen kann.

Was sind die ersten Schritte?

Wenn Sie Amazon SageMaker Asynchronous Inference zum ersten Mal verwenden, empfehlen wir Ihnen, wie folgt vorzugehen:

Beachten Sie, dass Sie Asynchronous Inference nicht verwenden können, wenn Ihr Endpunkt eine der auf dieser Ausschlüsse Seite aufgeführten Funktionen verwendet.