Risorse per l'utilizzo di Triton Inference Server con Amazon AI SageMaker - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Risorse per l'utilizzo di Triton Inference Server con Amazon AI SageMaker

SageMaker L'intelligenza artificiale consente ai clienti di implementare un modello utilizzando codice personalizzato con NVIDIA Triton Inference Server. Utilizza le seguenti risorse per imparare a utilizzare Triton Inference Server con AI. SageMaker

Questa funzionalità è disponibile attraverso lo sviluppo di container Triton Inference Server. Questi contenitori includono NVIDIA Triton Inference Server, supporto per i framework ML più comuni e utili variabili di ambiente che consentono di ottimizzare le prestazioni sull'intelligenza artificiale. SageMaker Per un elenco completo delle aree e degli URL di immagini disponibili dei container per il Deep Learning, consulta Available Deep Learning Containers Images. Le immagini di container per il Deep Learning vengono gestire e aggiornate regolarmente con patch di sicurezza.

Puoi utilizzare il contenitore Triton Inference Server con SageMaker Python SDK come faresti con qualsiasi altro contenitore nei tuoi modelli di intelligenza artificiale. SageMaker Tuttavia, l'utilizzo dell'SDK SageMaker Python è facoltativo. Puoi usare Triton Inference Server Containers con and. AWS CLI AWS SDK for Python (Boto3)

Per ulteriori informazioni su NVIDIA Triton Inference Server, consulta la documentazione su Triton.

Inferenza

Nota

Il backend Triton Python utilizza la memoria condivisa (SHMEM) per connettere il codice a Triton. SageMaker AI Inference fornisce fino alla metà della memoria dell'istanza come SHMEM, quindi puoi utilizzare un'istanza con più memoria per dimensioni SHMEM maggiori.

Per l'inferenza, puoi utilizzare i tuoi modelli ML addestrati con Triton Inference Server per implementare un lavoro di inferenza con AI. SageMaker

Alcune delle funzionalità principali di Triton Inference Server Container sono:

  • Supporto per più framework: Triton può essere utilizzato per implementare modelli da tutti i principali framework ML. Triton supporta i formati di TensorFlow GraphDef modello e SavedModel, ONNX, PyTorch TorchScript TensorRT e Python/C++ personalizzati.

  • Pipeline di modelli: l'insieme di modelli Triton rappresenta una pipeline di un modello con logica di pre/post-elaborazione e la connessione di tensori di input e output tra di esse. Una singola richiesta di inferenza a un insieme attiva l'esecuzione dell'intera pipeline.

  • Esecuzione simultanea del modello: più istanze dello stesso modello possono essere eseguite contemporaneamente sulla stessa GPU o su più. GPUs

  • Batching dinamico: per i modelli che supportano il batching, Triton dispone di diversi algoritmi di pianificazione e batch integrati che combinano le singole richieste di inferenza per migliorare la velocità di trasmissione effettiva dell'inferenza. Queste decisioni di pianificazione e raggruppamento sono trasparenti per il cliente che richiede l'inferenza.

  • Supporto di diverse CPU e GPU: i modelli possono essere eseguiti su CPUs o GPUs per la massima flessibilità e per supportare requisiti di elaborazione eterogenei.

Cosa desideri fare?

Voglio implementare il mio modello addestrato nell'intelligenza artificiale. PyTorch SageMaker

Per un esempio di Jupyter Notebook, vedi l'esempio Deploy your PyTorch Resnet50 model with Triton Inference Server.

Voglio implementare il mio modello Hugging Face addestrato nell'intelligenza artificiale. SageMaker

Per un esempio di Jupyter Notebook, vedi l'esempio Deploy your PyTorch BERT model with Triton Inference Server.