Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
SageMaker KI ermöglicht es Kunden, ein Modell mithilfe von benutzerdefiniertem Code mit NVIDIA Triton Inference Server bereitzustellen. Verwenden Sie die folgenden Ressourcen, um zu erfahren, wie Sie Triton Inference Server mit KI verwenden können. SageMaker
Diese Funktionalität ist im Rahmen der Entwicklung von Triton Inference Server Containers verfügbar. Zu diesen Containern gehören NVIDIA Triton Inference Server, Unterstützung für gängige ML-Frameworks und nützliche Umgebungsvariablen, mit denen Sie die Leistung auf KI optimieren können. SageMaker Eine vollständige Liste der verfügbaren Regionen und Bild-URLs von Deep-Learning-Containern finden Sie unter Verfügbare Deep Learning Containers Images
Sie können den Triton Inference Server Container mit SageMaker Python SDK wie jeden anderen Container in Ihren SageMaker KI-Modellen verwenden. Die Verwendung des SageMaker Python-SDK ist jedoch optional. Sie können Triton Inference Server Containers mit und verwenden. AWS CLI AWS SDK für Python (Boto3)
Weitere Informationen zu NVIDIA Triton Inference Server finden Sie in der Triton-Dokumentation
Inferenz
Anmerkung
Das Triton Python-Backend verwendet Shared Memory (SHMEM), um Ihren Code mit Triton zu verbinden. SageMaker AI Inference stellt bis zu der Hälfte des Instanzspeichers als SHMEM bereit, sodass Sie eine Instanz mit mehr Speicher für eine größere SHMEM-Größe verwenden können.
Für Inferenz können Sie Ihre trainierten ML-Modelle mit Triton Inference Server verwenden, um einen Inferenzjob mit KI bereitzustellen. SageMaker
Einige der wichtigsten Funktionen von Triton Inference Server Container sind:
-
Support für mehrere Frameworks: Triton kann verwendet werden, um Modelle aus allen wichtigen ML-Frameworks bereitzustellen. Triton unterstützt TensorFlow GraphDef und SavedModel, ONNX PyTorch TorchScript, TensorRT und benutzerdefinierte Python/C++-Modellformate.
-
Modell-Pipelines: Das Triton-Modellensemble stellt eine Pipeline aus einem Modell mit Vor- und Nachverarbeitungslogik und der Verbindung von Eingabe- und Ausgangstensoren zwischen ihnen dar. Eine einzelne Inferenzanforderung an ein Ensemble löst die Ausführung der gesamten Pipeline aus.
-
Gleichzeitige Modellausführung: Mehrere Instanzen desselben Modells können gleichzeitig auf derselben GPU oder auf mehreren ausgeführt werden. GPUs
-
Dynamisches Batching: Für Modelle, die Batching unterstützen, verfügt Triton über mehrere integrierte Planungs- und Batching-Algorithmen, die einzelne Inferenzanfragen miteinander kombinieren, um den Inferenzdurchsatz zu verbessern. Diese Planungs- und Batching-Entscheidungen sind für den Kunden, der Inferenz anfordert, transparent.
-
Vielfältige CPU- und GPU-Unterstützung: Die Modelle können auf CPUs oder ausgeführt werden, GPUs um maximale Flexibilität zu erzielen und heterogene Rechenanforderungen zu unterstützen.
Was möchten Sie tun?
- Ich möchte mein trainiertes PyTorch Modell in SageMaker KI einsetzen.
-
Ein Beispiel für ein Jupyter-Notebook finden Sie im Beispiel Deploy your PyTorch Resnet50-Modell mit
Triton Inference Server. - Ich möchte mein trainiertes Hugging Face Face-Modell in SageMaker KI einsetzen.
-
Ein Beispiel für ein Jupyter Notebook finden Sie im Beispiel Deploy your PyTorch BERT model with
Triton Inference Server.