Risorse per l'utilizzo di Triton Inference Server con Amazon AI SageMaker

Modalità Focus

Risorse per l'utilizzo di Triton Inference Server con Amazon AI SageMaker - Amazon SageMaker AI

SageMaker L'intelligenza artificiale consente ai clienti di implementare un modello utilizzando codice personalizzato con NVIDIA Triton Inference Server. Utilizza le seguenti risorse per imparare a utilizzare Triton Inference Server con AI. SageMaker

Questa funzionalità è disponibile attraverso lo sviluppo di container Triton Inference Server. Questi contenitori includono NVIDIA Triton Inference Server, supporto per i framework ML più comuni e utili variabili di ambiente che consentono di ottimizzare le prestazioni sull'intelligenza artificiale. SageMaker Per un elenco completo delle aree e degli URL di immagini disponibili dei container per il Deep Learning, consulta Available Deep Learning Containers Images. Le immagini di container per il Deep Learning vengono gestire e aggiornate regolarmente con patch di sicurezza.

Puoi utilizzare il contenitore Triton Inference Server con SageMaker Python SDK come faresti con qualsiasi altro contenitore nei tuoi modelli di intelligenza artificiale. SageMaker Tuttavia, l'utilizzo dell'SDK SageMaker Python è facoltativo. Puoi usare Triton Inference Server Containers con and. AWS CLI AWS SDK per Python (Boto3)

Per ulteriori informazioni su NVIDIA Triton Inference Server, consulta la documentazione su Triton.

Inferenza

Nota

Il backend Triton Python utilizza la memoria condivisa (SHMEM) per connettere il codice a Triton. SageMaker AI Inference fornisce fino alla metà della memoria dell'istanza come SHMEM, quindi puoi utilizzare un'istanza con più memoria per dimensioni SHMEM maggiori.

Per l'inferenza, puoi utilizzare i tuoi modelli ML addestrati con Triton Inference Server per implementare un lavoro di inferenza con l'intelligenza artificiale. SageMaker

Alcune delle funzionalità principali di Triton Inference Server Container sono:

Supporto per più framework: Triton può essere utilizzato per implementare modelli da tutti i principali framework ML. Triton supporta i formati di TensorFlow GraphDef modello e SavedModel, ONNX, PyTorch TorchScript TensorRT e Python/C++ personalizzati.
Pipeline di modelli: l'insieme di modelli Triton rappresenta una pipeline di un modello con logica di pre/post-elaborazione e la connessione di tensori di input e output tra di esse. Una singola richiesta di inferenza a un insieme attiva l'esecuzione dell'intera pipeline.
Esecuzione simultanea del modello: più istanze dello stesso modello possono essere eseguite contemporaneamente sulla stessa GPU o su più. GPUs
Batching dinamico: per i modelli che supportano il batching, Triton dispone di diversi algoritmi di pianificazione e batch integrati che combinano le singole richieste di inferenza per migliorare la velocità di trasmissione effettiva dell'inferenza. Queste decisioni di pianificazione e raggruppamento sono trasparenti per il cliente che richiede l'inferenza.
Supporto di diverse CPU e GPU: i modelli possono essere eseguiti su CPUs o GPUs per la massima flessibilità e per supportare requisiti di elaborazione eterogenei.

Cosa desideri fare?

Voglio implementare il mio modello addestrato nell'intelligenza artificiale. PyTorch SageMaker: Per un esempio di Jupyter Notebook, vedi l'esempio Deploy your PyTorch Resnet50 model with Triton Inference Server.
Voglio implementare il mio modello Hugging Face addestrato nell'intelligenza artificiale. SageMaker: Per un esempio di Jupyter Notebook, vedi l'esempio Deploy your PyTorch BERT model with Triton Inference Server.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

TensorFlow

Documentazione di riferimento delle API

Argomento successivo:

Documentazione di riferimento delle API

Argomento precedente:

TensorFlow

Hai bisogno di aiuto?

In questa pagina

Seleziona le tue preferenze relative ai cookie

Personalizza le tue preferenze relative ai cookie

Essenziali

Prestazione

Funzionali

Pubblicitari

Impossibile salvare le preferenze dei cookie