Recursos para usar el servidor de inferencia Triton con Amazon AI SageMaker

Modo de enfoque

Recursos para usar el servidor de inferencia Triton con Amazon AI SageMaker - Amazon SageMaker AI

SageMaker La IA permite a los clientes implementar un modelo mediante código personalizado con el servidor de inferencia Triton de NVIDIA. Utilice los siguientes recursos para aprender a utilizar el servidor de inferencia Triton con IA. SageMaker

Esta funcionalidad está disponible mediante el desarrollo de contenedores del servidor de inferencia Triton. Estos contenedores incluyen el servidor de inferencia NVIDIA Triton, la compatibilidad con los marcos de aprendizaje automático más comunes y variables de entorno útiles que permiten optimizar el rendimiento en la IA. SageMaker Para ver una lista completa de todas las imágenes disponibles de contenedores de aprendizaje profundo, consulte Available Deep Learning Containers Images. Las imágenes de contenedores de aprendizaje profundo se mantienen y actualizan periódicamente con parches de seguridad.

Puede utilizar el contenedor del servidor de inferencia Triton con el SDK de SageMaker Python como lo haría con cualquier otro contenedor de sus modelos de SageMaker IA. Sin embargo, el uso del SDK de SageMaker Python es opcional. Puede utilizar los contenedores del servidor de inferencia Triton con las AWS CLI teclas y. AWS SDK para Python (Boto3)

Para obtener más información sobre el servidor de inferencia NVIDIA Triton, consulte la documentación de Triton.

Inferencia

nota

El backend Python de Triton usa memoria compartida (SHMEM) para conectar el código a Triton. SageMaker AI Inference proporciona hasta la mitad de la memoria de la instancia que proporciona SHMEM, por lo que puedes usar una instancia con más memoria para un SHMEM de mayor tamaño.

Para realizar inferencias, puede usar sus modelos de aprendizaje automático entrenados con Triton Inference Server para implementar un trabajo de inferencia con IA. SageMaker

Algunas de las características clave del contenedor del servicios de inferencia Triton son:

Compatibilidad con varios marcos: Triton se puede usar para implementar modelos de todos los principales marcos de ML. Triton admite los formatos de SavedModel modelo Python/C++ personalizados TensorFlow GraphDef y ONNX, PyTorch TorchScript TensorRT.
Canalizaciones de modelos: el conjunto de modelos Triton representa una canalización de un modelo con una lógica de preprocesamiento y postprocesamiento y la conexión de tensores de entrada y salida entre ellas. Una sola solicitud de inferencia a un conjunto desencadena la ejecución de toda la canalización.
Ejecución simultánea del modelo: se pueden ejecutar varias instancias del mismo modelo simultáneamente en la misma GPU o en varias. GPUs
Procesamiento dinámico por lotes: para los modelos que admiten el procesamiento por lotes, Triton tiene varios algoritmos integrados de programación y procesamiento por lotes que combinan las solicitudes de inferencia individuales para mejorar el rendimiento de las inferencias. Estas decisiones de programación y procesamiento por lotes son transparentes para el cliente que solicita la inferencia.
Compatibilidad diversa con CPU y GPU: los modelos se pueden ejecutar en CPUs o GPUs para lograr la máxima flexibilidad y para satisfacer requisitos informáticos heterogéneos.

¿Qué quiere hacer?

Quiero implementar mi PyTorch modelo entrenado en SageMaker IA.: Para ver un ejemplo de Jupyter Notebook, consulte el ejemplo Implementación del modelo PyTorch Resnet50 con el servidor de inferencia Triton.
Quiero implementar mi modelo de Hugging Face entrenado SageMaker en IA.: Para ver un ejemplo de Jupyter Notebook, consulte el ejemplo Implementación de un modelo PyTorch BERT con el servidor de inferencia Triton.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

TensorFlow

referencia de la API

Tema siguiente:

referencia de la API

Tema anterior:

TensorFlow

¿Necesita ayuda?

En esta página

Seleccione sus preferencias de cookies

Personalizar preferencias de cookies

Esenciales

De rendimiento

Funcionales

De publicidad

No se pueden guardar las preferencias de cookies