Wählen Sie Ihre Cookie-Einstellungen aus

Wir verwenden essentielle Cookies und ähnliche Tools, die für die Bereitstellung unserer Website und Services erforderlich sind. Wir verwenden Performance-Cookies, um anonyme Statistiken zu sammeln, damit wir verstehen können, wie Kunden unsere Website nutzen, und Verbesserungen vornehmen können. Essentielle Cookies können nicht deaktiviert werden, aber Sie können auf „Anpassen“ oder „Ablehnen“ klicken, um Performance-Cookies abzulehnen.

Wenn Sie damit einverstanden sind, verwenden AWS und zugelassene Drittanbieter auch Cookies, um nützliche Features der Website bereitzustellen, Ihre Präferenzen zu speichern und relevante Inhalte, einschließlich relevanter Werbung, anzuzeigen. Um alle nicht notwendigen Cookies zu akzeptieren oder abzulehnen, klicken Sie auf „Akzeptieren“ oder „Ablehnen“. Um detailliertere Entscheidungen zu treffen, klicken Sie auf „Anpassen“.

Ressourcen für die Verwendung von Triton Inference Server mit Amazon AI SageMaker

Fokusmodus
Ressourcen für die Verwendung von Triton Inference Server mit Amazon AI SageMaker - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

SageMaker KI ermöglicht es Kunden, ein Modell mithilfe von benutzerdefiniertem Code mit NVIDIA Triton Inference Server bereitzustellen. Verwenden Sie die folgenden Ressourcen, um zu erfahren, wie Sie Triton Inference Server mit KI verwenden können. SageMaker

Diese Funktionalität ist im Rahmen der Entwicklung von Triton Inference Server Containers verfügbar. Zu diesen Containern gehören NVIDIA Triton Inference Server, Unterstützung für gängige ML-Frameworks und nützliche Umgebungsvariablen, mit denen Sie die Leistung auf KI optimieren können. SageMaker Eine vollständige Liste der verfügbaren Regionen und Bild-URLs von Deep-Learning-Containern finden Sie unter Verfügbare Deep Learning Containers Images. Deep Learning Containers Container-Images werden verwaltet und regelmäßig mit Sicherheitspatches aktualisiert.

Sie können den Triton Inference Server Container mit SageMaker Python SDK wie jeden anderen Container in Ihren SageMaker KI-Modellen verwenden. Die Verwendung des SageMaker Python-SDK ist jedoch optional. Sie können Triton Inference Server Containers mit und verwenden. AWS CLI AWS SDK für Python (Boto3)

Weitere Informationen zu NVIDIA Triton Inference Server finden Sie in der Triton-Dokumentation.

Inferenz

Anmerkung

Das Triton Python-Backend verwendet Shared Memory (SHMEM), um Ihren Code mit Triton zu verbinden. SageMaker AI Inference stellt bis zu der Hälfte des Instanzspeichers als SHMEM bereit, sodass Sie eine Instanz mit mehr Speicher für eine größere SHMEM-Größe verwenden können.

Für Inferenz können Sie Ihre trainierten ML-Modelle mit Triton Inference Server verwenden, um einen Inferenzjob mit KI bereitzustellen. SageMaker

Einige der wichtigsten Funktionen von Triton Inference Server Container sind:

  • Support für mehrere Frameworks: Triton kann verwendet werden, um Modelle aus allen wichtigen ML-Frameworks bereitzustellen. Triton unterstützt TensorFlow GraphDef und SavedModel, ONNX PyTorch TorchScript, TensorRT und benutzerdefinierte Python/C++-Modellformate.

  • Modell-Pipelines: Das Triton-Modellensemble stellt eine Pipeline aus einem Modell mit Vor- und Nachverarbeitungslogik und der Verbindung von Eingabe- und Ausgangstensoren zwischen ihnen dar. Eine einzelne Inferenzanforderung an ein Ensemble löst die Ausführung der gesamten Pipeline aus.

  • Gleichzeitige Modellausführung: Mehrere Instanzen desselben Modells können gleichzeitig auf derselben GPU oder auf mehreren ausgeführt werden. GPUs

  • Dynamisches Batching: Für Modelle, die Batching unterstützen, verfügt Triton über mehrere integrierte Planungs- und Batching-Algorithmen, die einzelne Inferenzanfragen miteinander kombinieren, um den Inferenzdurchsatz zu verbessern. Diese Planungs- und Batching-Entscheidungen sind für den Kunden, der Inferenz anfordert, transparent.

  • Vielfältige CPU- und GPU-Unterstützung: Die Modelle können auf CPUs oder ausgeführt werden, GPUs um maximale Flexibilität zu erzielen und heterogene Rechenanforderungen zu unterstützen.

Was möchten Sie tun?

Ich möchte mein trainiertes PyTorch Modell in SageMaker KI einsetzen.

Ein Beispiel für ein Jupyter-Notebook finden Sie im Beispiel Deploy your PyTorch Resnet50-Modell mit Triton Inference Server.

Ich möchte mein trainiertes Hugging Face Face-Modell in SageMaker KI einsetzen.

Ein Beispiel für ein Jupyter Notebook finden Sie im Beispiel Deploy your PyTorch BERT model with Triton Inference Server.

DatenschutzNutzungsbedingungen für die WebsiteCookie-Einstellungen
© 2025, Amazon Web Services, Inc. oder Tochtergesellschaften. Alle Rechte vorbehalten.