Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Algoritmos, marcos e instancias compatibles para terminales multimodelo
Para obtener información sobre algoritmos, marcos y tipos de instancias que puedes usar con puntos de conexión multimodelo, consulte las siguientes secciones.
Algoritmos, marcos e instancias compatibles para puntos finales multimodelo mediante instancias respaldadas CPU
Los contenedores de inferencia de los siguientes algoritmos y marcos admiten puntos de conexión multimodelo:
Para usar cualquier otro marco o algoritmo, usa el kit de herramientas de SageMaker inferencia para crear un contenedor que admita puntos finales multimodelo. Para obtener más información, consulte Cree su propio contenedor para terminales SageMaker multimodelo.
Los puntos finales multimodelo admiten todos los tipos de instancias. CPU
Algoritmos, marcos e instancias compatibles para puntos finales multimodelo mediante instancias respaldadas GPU
El servidor de inferencia Triton admite el alojamiento de varios modelos GPU respaldados en puntos finales multimodelo. SageMaker Esto es compatible con los principales marcos de inferencia, como NVIDIA® TensorRT™,, Python PyTorch,MXNet, XGBoost scikit-learn ONNX RandomForest, Open, C++ personalizado y más. VINO
Para usar cualquier otro marco o algoritmo, puede usar el backend Triton para Python o C++ para escribir la lógica de su modelo y servir cualquier modelo personalizado. Una vez que tenga el servidor listo, puede empezar a implementar cientos de modelos de aprendizaje profundo en un punto de conexión.
Los puntos finales multimodelo admiten los siguientes tipos de instancias: GPU
Familia de instancias | Tipo de instancia | vCPUs | GiB de memoria por v CPU | GPUs | GPUmemoria |
---|---|---|---|---|---|
p2 |
ml.p2.xlarge |
4 |
15.25 |
1 |
12 |
p3 |
ml.p3.2xlarge |
8 |
7.62 |
1 |
16 |
g5 |
ml.g5.xlarge |
4 |
4 |
1 |
24 |
g5 |
ml.g5.2xlarge |
8 |
4 |
1 |
24 |
g5 |
ml.g5.4xlarge |
16 |
4 |
1 |
24 |
g5 |
ml.g5.8xlarge |
32 |
4 |
1 |
24 |
g5 |
ml.g5.16xlarge |
64 |
4 |
1 |
24 |
g4dn |
ml.g4dn.xlarge |
4 |
4 |
1 |
16 |
g4dn |
ml.g4dn.2xlarge |
8 |
4 |
1 |
16 |
g4dn |
ml.g4dn.4xlarge |
16 |
4 |
1 |
16 |
g4dn |
ml.g4dn.8xlarge |
32 |
4 |
1 |
16 |
g4dn |
ml.g4dn.16xlarge |
64 |
4 |
1 |
16 |