Seleccione sus preferencias de cookies

Usamos cookies esenciales y herramientas similares que son necesarias para proporcionar nuestro sitio y nuestros servicios. Usamos cookies de rendimiento para recopilar estadísticas anónimas para que podamos entender cómo los clientes usan nuestro sitio y hacer mejoras. Las cookies esenciales no se pueden desactivar, pero puede hacer clic en “Personalizar” o “Rechazar” para rechazar las cookies de rendimiento.

Si está de acuerdo, AWS y los terceros aprobados también utilizarán cookies para proporcionar características útiles del sitio, recordar sus preferencias y mostrar contenido relevante, incluida publicidad relevante. Para aceptar o rechazar todas las cookies no esenciales, haga clic en “Aceptar” o “Rechazar”. Para elegir opciones más detalladas, haga clic en “Personalizar”.

Recursos para usar el servidor de inferencia Triton con Amazon AI SageMaker

Modo de enfoque
Recursos para usar el servidor de inferencia Triton con Amazon AI SageMaker - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

SageMaker La IA permite a los clientes implementar un modelo mediante código personalizado con el servidor de inferencia Triton de NVIDIA. Utilice los siguientes recursos para aprender a utilizar el servidor de inferencia Triton con IA. SageMaker

Esta funcionalidad está disponible mediante el desarrollo de contenedores del servidor de inferencia Triton. Estos contenedores incluyen el servidor de inferencia NVIDIA Triton, la compatibilidad con los marcos de aprendizaje automático más comunes y variables de entorno útiles que permiten optimizar el rendimiento en la IA. SageMaker Para ver una lista completa de todas las imágenes disponibles de contenedores de aprendizaje profundo, consulte Available Deep Learning Containers Images. Las imágenes de contenedores de aprendizaje profundo se mantienen y actualizan periódicamente con parches de seguridad.

Puede utilizar el contenedor del servidor de inferencia Triton con el SDK de SageMaker Python como lo haría con cualquier otro contenedor de sus modelos de SageMaker IA. Sin embargo, el uso del SDK de SageMaker Python es opcional. Puede utilizar los contenedores del servidor de inferencia Triton con las AWS CLI teclas y. AWS SDK para Python (Boto3)

Para obtener más información sobre el servidor de inferencia NVIDIA Triton, consulte la documentación de Triton.

Inferencia

nota

El backend Python de Triton usa memoria compartida (SHMEM) para conectar el código a Triton. SageMaker AI Inference proporciona hasta la mitad de la memoria de la instancia que proporciona SHMEM, por lo que puedes usar una instancia con más memoria para un SHMEM de mayor tamaño.

Para realizar inferencias, puede usar sus modelos de aprendizaje automático entrenados con Triton Inference Server para implementar un trabajo de inferencia con IA. SageMaker

Algunas de las características clave del contenedor del servicios de inferencia Triton son:

  • Compatibilidad con varios marcos: Triton se puede usar para implementar modelos de todos los principales marcos de ML. Triton admite los formatos de SavedModel modelo Python/C++ personalizados TensorFlow GraphDef y ONNX, PyTorch TorchScript TensorRT.

  • Canalizaciones de modelos: el conjunto de modelos Triton representa una canalización de un modelo con una lógica de preprocesamiento y postprocesamiento y la conexión de tensores de entrada y salida entre ellas. Una sola solicitud de inferencia a un conjunto desencadena la ejecución de toda la canalización.

  • Ejecución simultánea del modelo: se pueden ejecutar varias instancias del mismo modelo simultáneamente en la misma GPU o en varias. GPUs

  • Procesamiento dinámico por lotes: para los modelos que admiten el procesamiento por lotes, Triton tiene varios algoritmos integrados de programación y procesamiento por lotes que combinan las solicitudes de inferencia individuales para mejorar el rendimiento de las inferencias. Estas decisiones de programación y procesamiento por lotes son transparentes para el cliente que solicita la inferencia.

  • Compatibilidad diversa con CPU y GPU: los modelos se pueden ejecutar en CPUs o GPUs para lograr la máxima flexibilidad y para satisfacer requisitos informáticos heterogéneos.

¿Qué quiere hacer?

Quiero implementar mi PyTorch modelo entrenado en SageMaker IA.

Para ver un ejemplo de Jupyter Notebook, consulte el ejemplo Implementación del modelo PyTorch Resnet50 con el servidor de inferencia Triton.

Quiero implementar mi modelo de Hugging Face entrenado SageMaker en IA.

Para ver un ejemplo de Jupyter Notebook, consulte el ejemplo Implementación de un modelo PyTorch BERT con el servidor de inferencia Triton.

PrivacidadTérminos del sitioPreferencias de cookies
© 2025, Amazon Web Services, Inc o sus afiliados. Todos los derechos reservados.