Algoritmos, marcos e instancias compatibles con puntos de conexión multimodelo

Modo de enfoque

Algoritmos, marcos e instancias compatibles con puntos de conexión multimodelo - Amazon SageMaker AI

Algoritmos, marcos e instancias compatibles para puntos de conexión multimodelo que utilizan instancias respaldadas por CPU Algoritmos, marcos e instancias compatibles para puntos de conexión multimodelo que utilizan instancias respaldadas por GPU

Para obtener información sobre algoritmos, marcos y tipos de instancias que puedes usar con puntos de conexión multimodelo, consulte las siguientes secciones.

Algoritmos, marcos e instancias compatibles para puntos de conexión multimodelo que utilizan instancias respaldadas por CPU

Los contenedores de inferencia de los siguientes algoritmos y marcos admiten puntos de conexión multimodelo:

Para utilizar cualquier otro marco o algoritmo, utilice el kit de herramientas de inferencia de SageMaker IA para crear un contenedor que admita puntos finales multimodelo. Para obtener más información, consulte Cree su propio contenedor para terminales SageMaker multimodelo de IA.

Los puntos de conexión multimodelo admiten todos los tipos de instancias de CPU.

Algoritmos, marcos e instancias compatibles para puntos de conexión multimodelo que utilizan instancias respaldadas por GPU

El servidor de inferencia Triton de IA permite alojar varios modelos respaldados por GPU en puntos finales multimodelo. SageMaker Esto es compatible con los principales marcos de inferencia, como NVIDIA® TensorRT™, Python PyTorch, ONNX MXNet, scikit-learn XGBoost, OpenVINO, C++ personalizado RandomForest y más.

Para usar cualquier otro marco o algoritmo, puede usar el backend Triton para Python o C++ para escribir la lógica de su modelo y servir cualquier modelo personalizado. Una vez que tenga el servidor listo, puede empezar a implementar cientos de modelos de aprendizaje profundo en un punto de conexión.

Los puntos de conexión multimodelo admiten los siguientes tipos de instancias de GPU:

Familia de instancias	Tipo de instancia	v CPUs	GiB de memoria por vCPU	GPUs	Memoria de GPU
p2	ml.p2.xlarge	4	15.25	1	12
p3	ml.p3.2xlarge	8	7.62	1	16
g5	ml.g5.xlarge	4	4	1	24
g5	ml.g5.2xlarge	8	4	1	24
g5	ml.g5.4xlarge	16	4	1	24
g5	ml.g5.8xlarge	32	4	1	24
g5	ml.g5.16xlarge	64	4	1	24
g4dn	ml.g4dn.xlarge	4	4	1	16
g4dn	ml.g4dn.2xlarge	8	4	1	16
g4dn	ml.g4dn.4xlarge	16	4	1	16
g4dn	ml.g4dn.8xlarge	32	4	1	16
g4dn	ml.g4dn.16xlarge	64	4	1	16

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Puntos de conexión multimodelo

Recomendaciones de instancia para implementaciones de puntos de conexión multimodelo

En esta página

Seleccione sus preferencias de cookies

Personalizar preferencias de cookies

Esenciales

De rendimiento

Funcionales

De publicidad

No se pueden guardar las preferencias de cookies

Algoritmos, marcos e instancias compatibles con puntos de conexión multimodelo

Algoritmos, marcos e instancias compatibles para puntos de conexión multimodelo que utilizan instancias respaldadas por CPU

Algoritmos, marcos e instancias compatibles para puntos de conexión multimodelo que utilizan instancias respaldadas por GPU

En esta página

¿Le ha servido de ayuda esta página?

Tema siguiente:

Tema anterior:

¿Necesita ayuda?