Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Vertrag für individuelle Container für Multimodell-Endpunkte
Um mehrere Modelle verarbeiten zu können, muss Ihr Container eine Reihe von Modellen unterstützen APIs , die es Amazon SageMaker AI ermöglichen, mit dem Container zu kommunizieren, um Modelle nach Bedarf zu laden, aufzulisten, abzurufen und zu entladen. Der model_name
wird im neuen Satz von APIs als der wichtigste Eingabeparameter verwendet. Es wird erwartet, dass der Kundencontainer die geladenen Modelle unter Verwendung von model_name
als Zuordnungsschlüssel verfolgt. Außerdem ist model_name
ein undurchsichtiger Bezeichner und ist nicht unbedingt der Wert des TargetModel
-Parameters, der an die InvokeEndpoint
-API übergeben wird. Der ursprüngliche TargetModel
Wert in der InvokeEndpoint
Anfrage wird APIs als X-Amzn-SageMaker-Target-Model
Header, der für Protokollierungszwecke verwendet werden kann, an den Container im Container übergeben.
Anmerkung
Endpunkte mit mehreren Modellen für GPU-gestützte Instances werden derzeit nur mit dem NVIDIA Triton Inference Server-Container von SageMaker AI unterstützt. Dieser Container implementiert bereits den unten definierten Vertrag. Der Kunde kann diesen Container ohne zusätzlichen Aufwand direkt mit seinen MultimodellGPU-Endpunkten verwenden.
Sie können in Ihren Containern für CPU-gestützte APIs Endpunkte mit mehreren Modellen Folgendes konfigurieren.
Modell API laden
Weist den Container an, ein bestimmtes Modell im Feld url
des Fließtexts in den Speicher des Kundencontainers zu laden und es mit dem zugewiesenen model_name
zu verfolgen. Nachdem ein Modell geladen wurde, sollte der Container bereit sein, Inferenzanforderungen unter Verwendung dieses model_name
zu bedienen.
POST /models HTTP/1.1 Content-Type: application/json Accept: application/json { "model_name" : "{model_name}", "url" : "/opt/ml/models/{model_name}/model", }
Anmerkung
Wenn model_name
bereits geladen ist, sollte diese API 409 zurückgeben. Jedes Mal, wenn ein Modell aufgrund von Speichermangel oder einer anderen Ressource nicht geladen werden kann, sollte diese API einen 507-HTTP-Statuscode an SageMaker AI zurückgeben, die dann das Entladen ungenutzter Modelle zur Rückgewinnung initiiert.
Modell API auflisten
Gibt die Liste der Modelle zurück, die in den Speicher des Kundencontainers geladen werden.
GET /models HTTP/1.1 Accept: application/json Response = { "models": [ { "modelName" : "{model_name}", "modelUrl" : "/opt/ml/models/{model_name}/model", }, { "modelName" : "{model_name}", "modelUrl" : "/opt/ml/models/{model_name}/model", }, .... ] }
Diese API unterstützt auch die Paginierung.
GET /models HTTP/1.1 Accept: application/json Response = { "models": [ { "modelName" : "{model_name}", "modelUrl" : "/opt/ml/models/{model_name}/model", }, { "modelName" : "{model_name}", "modelUrl" : "/opt/ml/models/{model_name}/model", }, .... ] }
SageMaker KI kann die List Models API zunächst aufrufen, ohne einen Wert für anzugeben. next_page_token
Wenn ein nextPageToken
-Feld als Teil der Antwort zurückgegeben wird, wird es als Wert für next_page_token
in einem nachfolgenden Aufruf zum Auflisten der Modelle angegeben. Wenn kein nextPageToken
zurückgegeben wird, bedeutet dies, dass keine weiteren Modelle zurückgegeben werden müssen.
Modell API aufrufen
Dies ist eine einfache Lese-API für die Entität model_name
.
GET /models/{model_name} HTTP/1.1 Accept: application/json { "modelName" : "{model_name}", "modelUrl" : "/opt/ml/models/{model_name}/model", }
Anmerkung
Wenn model_name
nicht geladen ist, sollte diese API 404 zurückgeben.
Modell API entladen
Weist die SageMaker KI-Plattform an, den Kundencontainer anzuweisen, ein Modell aus dem Speicher zu entladen. Dies löst die Bereinigung eines Kandidatenmodells aus, wie von der Plattform festgelegt, wenn der Prozess des Ladens eines neuen Modells gestartet wird. Die model_name
bereitgestellten Ressourcen sollten vom Container zurückgerufen werden, wenn diese API eine Antwort zurückgibt.
DELETE /models/{model_name}
Anmerkung
Wenn model_name
nicht geladen ist, sollte diese API 404 zurückgeben.
Modell API aufrufen
Stellt eine Vorhersageanforderung von einem bestimmten bereitgestellten model_name
. Die SageMaker AI InvokeEndpoint
Runtime-Anfrage wird X-Amzn-SageMaker-Target-Model
als neuer Header unterstützt, der den relativen Pfad des für den Aufruf angegebenen Modells verwendet. Das SageMaker KI-System erstellt den absoluten Pfad des Modells, indem es das Präfix, das als Teil des CreateModel
API-Aufrufs bereitgestellt wird, mit dem relativen Pfad des Modells kombiniert.
POST /models/{model_name}/invoke HTTP/1.1 Content-Type: ContentType Accept: Accept X-Amzn-SageMaker-Custom-Attributes: CustomAttributes X-Amzn-SageMaker-Target-Model: [relativePath]/{artifactName}.tar.gz
Anmerkung
Wenn model_name
nicht geladen ist, sollte diese API 404 zurückgeben.
Darüber hinaus sollte diese API bei GPU-Instanzen, wenn sie aufgrund eines Mangels an Arbeitsspeicher oder anderen Ressourcen InvokeEndpoint
fehlschlagen, einen 507-HTTP-Statuscode an SageMaker AI zurückgeben, der dann das Entladen ungenutzter Modelle zur Rückgewinnung initiiert.