Ressources pour utiliser le serveur d'inférence Triton avec Amazon AI SageMaker

Mode de mise au point

Ressources pour utiliser le serveur d'inférence Triton avec Amazon AI SageMaker - Amazon SageMaker AI

SageMaker L'IA permet aux clients de déployer un modèle à l'aide d'un code personnalisé avec le serveur d'inférence NVIDIA Triton. Utilisez les ressources suivantes pour apprendre à utiliser le serveur d'inférence Triton avec SageMaker l'IA.

Pour accéder à cette fonctionnalité, développez Triton Inference Server Containers (Conteneurs de serveur d'inférence Triton). Ces conteneurs incluent le serveur d'inférence NVIDIA Triton, la prise en charge des frameworks ML courants et des variables d'environnement utiles qui vous permettent d'optimiser les performances sur SageMaker l'IA. Pour obtenir la liste des images de conteneurs Deep Learning Containers disponibles, veuillez consulter Available Deep Learning Containers Images. Ces images de conteneurs Deep Learning Containers sont conservées et régulièrement mises à jour avec des correctifs de sécurité.

Vous pouvez utiliser le conteneur Triton Inference Server avec le SDK SageMaker Python comme n'importe quel autre conteneur dans vos SageMaker modèles d'IA. Cependant, l'utilisation du SDK SageMaker Python est facultative. Vous pouvez utiliser les conteneurs du serveur d'inférence Triton avec et. AWS CLI AWS SDK pour Python (Boto3)

Pour plus d'informations sur le serveur d'inférence NVIDIA Triton, veuillez consulter la documentation Triton.

Inférence

Note

Le backend Triton Python utilise la mémoire partagée (SHMEM) pour connecter votre code à Triton. SageMaker AI Inference fournit jusqu'à la moitié de la mémoire de l'instance sous forme de SHMEM, ce qui vous permet d'utiliser une instance avec plus de mémoire pour une taille SHMEM plus importante.

À des fins d'inférence, vous pouvez utiliser vos modèles de machine learning entraînés avec Triton Inference Server pour déployer une tâche d'inférence avec l'IA. SageMaker

Voici quelques fonctions clés du conteneur de serveur d'inférence Triton :

Prise en charge de plusieurs cadres : Triton peut être utilisé pour déployer des modèles à partir de tous les principaux frameworks de ML. Triton prend en charge TensorFlow GraphDef et SavedModel, ONNX, PyTorch TorchScript TensorRT et les formats de modèles Python/C++ personnalisés.
Pipelines de modèles : l'ensemble des modèles Triton représente un pipeline d'un modèle avec une logique de pré/post-traitement et la connexion des tenseurs d'entrée et de sortie entre eux. Une seule demande d'inférence à un ensemble déclenche l'exécution du pipeline entier.
Exécution simultanée du modèle : plusieurs instances du même modèle peuvent s'exécuter simultanément sur le même GPU ou sur plusieurs GPUs.
Traitement par lots dynamique : pour les modèles qui prennent en charge le traitement par lots, Triton dispose de plusieurs algorithmes de planification et de traitement par lots intégrés qui combinent des demandes d'inférence individuelles pour améliorer le débit d'inférence. Ces décisions de planification et de traitement par lots sont transparentes pour le client qui demande l'inférence.
Prise en charge de divers processeurs et GPU : les modèles peuvent être exécutés sur CPUs ou GPUs pour une flexibilité maximale et pour répondre à des exigences informatiques hétérogènes.

Que souhaitez-vous faire ?

Je souhaite déployer mon PyTorch modèle entraîné dans le domaine de l' SageMaker IA.: Pour un exemple de bloc-notes Jupyter, consultez l'exemple Déployez votre modèle PyTorch Resnet50 avec le serveur d'inférence Triton.
Je souhaite déployer mon modèle Hugging Face entraîné SageMaker dans l'IA.: Pour un exemple de bloc-notes Jupyter, consultez l'exemple Déployez votre modèle PyTorch BERT avec le serveur d'inférence Triton.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.