Unterstützte Algorithmen, Frameworks und Instanzen für Endgeräte mit mehreren Modellen, die unterstützte Instanzen verwenden CPU Unterstützte Algorithmen, Frameworks und Instanzen für Endgeräte mit mehreren Modellen, die unterstützte Instanzen verwenden GPU

Unterstützte Algorithmen, Frameworks und Instanzen für Endgeräte mit mehreren Modellen

Informationen zu den Algorithmen, Frameworks und Instance-Typen, die Sie mit Multimodell-Endpunkten verwenden können, finden Sie in den folgenden Abschnitten.

Unterstützte Algorithmen, Frameworks und Instanzen für Endgeräte mit mehreren Modellen, die unterstützte Instanzen verwenden CPU

Die Inference-Container für die folgenden Algorithmen und Frameworks unterstützen Multimodell-Endpunkte:

Um ein anderes Framework oder einen anderen Algorithmus zu verwenden, verwenden Sie das SageMaker Inferenz-Toolkit, um einen Container zu erstellen, der Endpunkte mit mehreren Modellen unterstützt. Weitere Informationen finden Sie unter Erstellen Sie Ihren eigenen Container für Endgeräte SageMaker mit mehreren Modellen.

Endpunkte mit mehreren Modellen unterstützen alle Instanztypen. CPU

Unterstützte Algorithmen, Frameworks und Instanzen für Endgeräte mit mehreren Modellen, die unterstützte Instanzen verwenden GPU

Das Hosten mehrerer GPU unterstützter Modelle auf Endpunkten mit mehreren Modellen wird über den SageMaker Triton Inference Server unterstützt. Dies unterstützt alle wichtigen Inferenz-Frameworks wie NVIDIA® TensorRT™,,, Python PyTorch,MXNet,, scikit-learn ONNXXGBoost,, Open RandomForestVINO, benutzerdefiniertes C++ und mehr.

Um ein anderes Framework oder einen anderen Algorithmus zu verwenden, können Sie das Triton-Backend für Python oder C++ verwenden, um Ihre Modelllogik zu schreiben und jedes benutzerdefinierte Modell bereitzustellen. Sobald Sie den Server bereit haben, können Sie damit beginnen, Hunderte von Deep-Learning-Modellen hinter einem Endpunkt bereitzustellen.

Endgeräte mit mehreren Modellen unterstützen die folgenden Instanztypen: GPU

Instance-Familie	Instance-Typ	vCPUs	GiB Speicher pro v CPU	GPUs	GPUSpeicher
p2	ml.p2.xlarge	4	15,25	1	12
p3	ml.p3.2xlarge	8	7.62	1	16
g5	ml.g5.xlarge	4	4	1	24
g5	ml.g5.2xlarge	8	4	1	24
g5	ml.g5.4xlarge	16	4	1	24
g5	ml.g5.8xlarge	32	4	1	24
g5	ml.g5.16xlarge	64	4	1	24
g4dn	ml.g4dn.xlarge	4	4	1	16
g4dn	ml.g4dn.2xlarge	8	4	1	16
g4dn	ml.g4dn.4xlarge	16	4	1	16
g4dn	ml.g4dn.8xlarge	32	4	1	16
g4dn	ml.g4dn.16xlarge	64	4	1	16

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Multimodell-Endpunkte

Instance-Empfehlungen für Bereitstellungen von Multimodell-Endpunkten