Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Legen Sie das SageMaker Caching-Verhalten von Endpunktmodellen für mehrere Modelle fest
Standardmäßig speichern Endgeräte mit mehreren Modellen häufig verwendete Modelle im Arbeitsspeicher (CPUoderGPU, je nachdem, ob Sie über oder über GPU gesicherte Instances verfügenCPU) und auf der Festplatte, um Rückschlüsse mit geringer Latenz zu ermöglichen. Die zwischengespeicherten Modelle werden nur dann entladen und/oder von der Festplatte gelöscht, wenn einem Container nicht mehr genügend Arbeitsspeicher oder Festplattenspeicher für ein neues Zielmodell zur Verfügung steht.
Sie können das Caching-Verhalten eines Multimodell-Endpunkts ändern und das Modell-Caching explizit aktivieren oder deaktivieren, indem Sie den Parameter ModelCacheSetting
beim Aufrufen von create_model
Wir empfehlen, den Wert des Parameters ModelCacheSetting
für Anwendungsfälle, die nicht vom Modell-Caching profitieren, auf Disabled
festzulegen. Wenn eine große Anzahl von Modellen z. B. vom Endpunkt aus bedient werden müssen, jedes Modell aber nur einmal (oder sehr selten) aufgerufen wird. In solchen Anwendungsfällen Disabled
ermöglicht das Einstellen des ModelCacheSetting
Parameterwerts auf höhere Transaktionen pro Sekunde (TPS) für invoke_endpoint
Anfragen im Vergleich zum Standard-Caching-Modus. Ein höherer Wert liegt TPS in diesen Anwendungsfällen daran, SageMaker dass nach der invoke_endpoint
Anfrage Folgendes ausgeführt wird:
-
Es entlädt das Modell asynchron aus dem Speicher und löscht es unmittelbar nach dem Aufruf von der Festplatte.
-
Es bietet eine höhere Parallelität beim Herunterladen und Laden von Modellen in den Inference-Container. CPUSowohl für Endpoints GPU als auch für Backpoints ist die Parallelität ein Faktor, der von der Nummer vCPUs der Container-Instance abhängt.
Richtlinien zur Auswahl eines SageMaker ML-Instanztyps für einen Endpunkt mit mehreren Modellen finden Sie unter. Instance-Empfehlungen für Bereitstellungen von Multimodell-Endpunkten