Ressourcen für die Verwendung von Triton Inference Server mit Amazon AI SageMaker

Fokusmodus

Ressourcen für die Verwendung von Triton Inference Server mit Amazon AI SageMaker - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

SageMaker KI ermöglicht es Kunden, ein Modell mithilfe von benutzerdefiniertem Code mit NVIDIA Triton Inference Server bereitzustellen. Verwenden Sie die folgenden Ressourcen, um zu erfahren, wie Sie Triton Inference Server mit KI verwenden können. SageMaker

Diese Funktionalität ist im Rahmen der Entwicklung von Triton Inference Server Containers verfügbar. Zu diesen Containern gehören NVIDIA Triton Inference Server, Unterstützung für gängige ML-Frameworks und nützliche Umgebungsvariablen, mit denen Sie die Leistung auf KI optimieren können. SageMaker Eine vollständige Liste der verfügbaren Regionen und Bild-URLs von Deep-Learning-Containern finden Sie unter Verfügbare Deep Learning Containers Images. Deep Learning Containers Container-Images werden verwaltet und regelmäßig mit Sicherheitspatches aktualisiert.

Sie können den Triton Inference Server Container mit SageMaker Python SDK wie jeden anderen Container in Ihren SageMaker KI-Modellen verwenden. Die Verwendung des SageMaker Python-SDK ist jedoch optional. Sie können Triton Inference Server Containers mit und verwenden. AWS CLI AWS SDK für Python (Boto3)

Weitere Informationen zu NVIDIA Triton Inference Server finden Sie in der Triton-Dokumentation.

Inferenz

Anmerkung

Das Triton Python-Backend verwendet Shared Memory (SHMEM), um Ihren Code mit Triton zu verbinden. SageMaker AI Inference stellt bis zu der Hälfte des Instanzspeichers als SHMEM bereit, sodass Sie eine Instanz mit mehr Speicher für eine größere SHMEM-Größe verwenden können.

Für Inferenz können Sie Ihre trainierten ML-Modelle mit Triton Inference Server verwenden, um einen Inferenzjob mit KI bereitzustellen. SageMaker

Einige der wichtigsten Funktionen von Triton Inference Server Container sind:

Support für mehrere Frameworks: Triton kann verwendet werden, um Modelle aus allen wichtigen ML-Frameworks bereitzustellen. Triton unterstützt TensorFlow GraphDef und SavedModel, ONNX PyTorch TorchScript, TensorRT und benutzerdefinierte Python/C++-Modellformate.
Modell-Pipelines: Das Triton-Modellensemble stellt eine Pipeline aus einem Modell mit Vor- und Nachverarbeitungslogik und der Verbindung von Eingabe- und Ausgangstensoren zwischen ihnen dar. Eine einzelne Inferenzanforderung an ein Ensemble löst die Ausführung der gesamten Pipeline aus.
Gleichzeitige Modellausführung: Mehrere Instanzen desselben Modells können gleichzeitig auf derselben GPU oder auf mehreren ausgeführt werden. GPUs
Dynamisches Batching: Für Modelle, die Batching unterstützen, verfügt Triton über mehrere integrierte Planungs- und Batching-Algorithmen, die einzelne Inferenzanfragen miteinander kombinieren, um den Inferenzdurchsatz zu verbessern. Diese Planungs- und Batching-Entscheidungen sind für den Kunden, der Inferenz anfordert, transparent.
Vielfältige CPU- und GPU-Unterstützung: Die Modelle können auf CPUs oder ausgeführt werden, GPUs um maximale Flexibilität zu erzielen und heterogene Rechenanforderungen zu unterstützen.

Was möchten Sie tun?

Ich möchte mein trainiertes PyTorch Modell in SageMaker KI einsetzen.: Ein Beispiel für ein Jupyter-Notebook finden Sie im Beispiel Deploy your PyTorch Resnet50-Modell mit Triton Inference Server.
Ich möchte mein trainiertes Hugging Face Face-Modell in SageMaker KI einsetzen.: Ein Beispiel für ein Jupyter Notebook finden Sie im Beispiel Deploy your PyTorch BERT model with Triton Inference Server.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

TensorFlow

API-Referenz

Nächstes Thema:

API-Referenz

Vorheriges Thema:

TensorFlow

Brauchen Sie Hilfe?

Auf dieser Seite

Wählen Sie Ihre Cookie-Einstellungen aus

Cookie-Einstellungen anpassen

Essenziell

Leistung

Funktional

Werbung

Cookie-Einstellungen konnten nicht gespeichert werden