Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Risorse per l'utilizzo di Triton Inference Server con Amazon AI SageMaker
SageMaker L'intelligenza artificiale consente ai clienti di implementare un modello utilizzando codice personalizzato con NVIDIA Triton Inference Server. Utilizza le seguenti risorse per imparare a utilizzare Triton Inference Server con AI. SageMaker
Questa funzionalità è disponibile attraverso lo sviluppo di container Triton Inference Server. Questi contenitori includono NVIDIA Triton Inference Server, supporto per i framework ML più comuni e utili variabili di ambiente che consentono di ottimizzare le prestazioni sull'intelligenza artificiale. SageMaker Per un elenco completo delle aree e degli URL di immagini disponibili dei container per il Deep Learning, consulta Available Deep Learning Containers Images
Puoi utilizzare il contenitore Triton Inference Server con SageMaker Python SDK come faresti con qualsiasi altro contenitore nei tuoi modelli di intelligenza artificiale. SageMaker Tuttavia, l'utilizzo dell'SDK SageMaker Python è facoltativo. Puoi usare Triton Inference Server Containers con and. AWS CLI AWS SDK for Python (Boto3)
Per ulteriori informazioni su NVIDIA Triton Inference Server, consulta la documentazione su Triton
Inferenza
Nota
Il backend Triton Python utilizza la memoria condivisa (SHMEM) per connettere il codice a Triton. SageMaker AI Inference fornisce fino alla metà della memoria dell'istanza come SHMEM, quindi puoi utilizzare un'istanza con più memoria per dimensioni SHMEM maggiori.
Per l'inferenza, puoi utilizzare i tuoi modelli ML addestrati con Triton Inference Server per implementare un lavoro di inferenza con AI. SageMaker
Alcune delle funzionalità principali di Triton Inference Server Container sono:
-
Supporto per più framework: Triton può essere utilizzato per implementare modelli da tutti i principali framework ML. Triton supporta i formati di TensorFlow GraphDef modello e SavedModel, ONNX, PyTorch TorchScript TensorRT e Python/C++ personalizzati.
-
Pipeline di modelli: l'insieme di modelli Triton rappresenta una pipeline di un modello con logica di pre/post-elaborazione e la connessione di tensori di input e output tra di esse. Una singola richiesta di inferenza a un insieme attiva l'esecuzione dell'intera pipeline.
-
Esecuzione simultanea del modello: più istanze dello stesso modello possono essere eseguite contemporaneamente sulla stessa GPU o su più. GPUs
-
Batching dinamico: per i modelli che supportano il batching, Triton dispone di diversi algoritmi di pianificazione e batch integrati che combinano le singole richieste di inferenza per migliorare la velocità di trasmissione effettiva dell'inferenza. Queste decisioni di pianificazione e raggruppamento sono trasparenti per il cliente che richiede l'inferenza.
-
Supporto di diverse CPU e GPU: i modelli possono essere eseguiti su CPUs o GPUs per la massima flessibilità e per supportare requisiti di elaborazione eterogenei.
Cosa desideri fare?
- Voglio implementare il mio modello addestrato nell'intelligenza artificiale. PyTorch SageMaker
-
Per un esempio di Jupyter Notebook, vedi l'esempio Deploy your PyTorch Resnet50
model with Triton Inference Server. - Voglio implementare il mio modello Hugging Face addestrato nell'intelligenza artificiale. SageMaker
-
Per un esempio di Jupyter Notebook, vedi l'esempio Deploy your PyTorch BERT
model with Triton Inference Server.