Algoritmos, marcos e instancias compatibles con puntos de conexión multimodelo - Amazon SageMaker

Algoritmos, marcos e instancias compatibles con puntos de conexión multimodelo

Para obtener información sobre algoritmos, marcos y tipos de instancias que puedes usar con puntos de conexión multimodelo, consulte las siguientes secciones.

Algoritmos, marcos e instancias compatibles para puntos de conexión multimodelo que utilizan instancias respaldadas por CPU

Los contenedores de inferencia de los siguientes algoritmos y marcos admiten puntos de conexión multimodelo:

Para utilizar cualquier otro marco o algoritmo, use el conjunto de herramientas de inferencia de SageMaker para compilar un contenedor que admita puntos de conexión multimodelo. Para obtener más información, consulte Cree su propio contenedor para puntos de conexión multimodelo de SageMaker.

Los puntos de conexión multimodelo admiten todos los tipos de instancias de CPU.

Algoritmos, marcos e instancias compatibles para puntos de conexión multimodelo que utilizan instancias respaldadas por GPU

El servidor SageMaker Triton Inference admite el alojamiento de varios modelos respaldados por GPU en puntos de conexión multimodelo. Es compatible con los principales marcos de inferencia, como NVIDIA® TensorRT™, PyTorch, MXNet, Python, ONNX, XGBoost, scikit-learn, RandomForest, OpenVINO, C++ personalizado, entre otros.

Para usar cualquier otro marco o algoritmo, puede usar el backend Triton para Python o C++ para escribir la lógica de su modelo y servir cualquier modelo personalizado. Una vez que tenga el servidor listo, puede empezar a implementar cientos de modelos de aprendizaje profundo en un punto de conexión.

Los puntos de conexión multimodelo admiten los siguientes tipos de instancias de GPU:

Familia de instancias Tipo de instancia vCPU GiB de memoria por vCPU GPU Memoria de GPU

p2

ml.p2.xlarge

4

15.25

1

12

p3

ml.p3.2xlarge

8

7.62

1

16

g5

ml.g5.xlarge

4

4

1

24

g5

ml.g5.2xlarge

8

4

1

24

g5

ml.g5.4xlarge

16

4

1

24

g5

ml.g5.8xlarge

32

4

1

24

g5

ml.g5.16xlarge

64

4

1

24

g4dn

ml.g4dn.xlarge

4

4

1

16

g4dn

ml.g4dn.2xlarge

8

4

1

16

g4dn

ml.g4dn.4xlarge

16

4

1

16

g4dn

ml.g4dn.8xlarge

32

4

1

16

g4dn

ml.g4dn.16xlarge

64

4

1

16