bloques de capacidad para ML
bloques de capacidad para ML le permite reservar instancias de GPU que tienen una alta demanda para el futuro a fin de respaldar sus cargas de trabajo de machine learning (ML) de corta duración. Las instancias que se ejecutan en un bloque de capacidad se colocan automáticamente cerca dentro de Amazon EC2 UltraClusters
Con bloques de capacidad, puede ver cuándo estará disponible la capacidad de las instancias de GPU en fechas futuras y programar un bloque de capacidad para que comience a la hora que mejor le convenga. Cuando reserva un bloque de capacidad, obtiene una garantía de capacidad predecible para las instancias de GPU y paga solo por el tiempo que necesite. Recomendamos bloques de capacidad si necesita GPU para respaldar sus cargas de trabajo de ML durante días o semanas y no quiere pagar una reserva mientras las instancias de GPU no estén en uso.
A continuación, se indican algunos casos de uso frecuentes de bloques de capacidad.
-
Entrenamiento y ajuste de modelos de ML: obtenga acceso ininterrumpido a las instancias de GPU que reservó para completar el entrenamiento y el ajuste de los modelos de ML.
-
Experimentos y prototipos de ML: ejecute experimentos y cree prototipos que requieran instancias de GPU durante periodos cortos.
Los bloques de capacidad están disponibles actualmente para instancias p5.48xlarge
, p5e.48xlarge
, p4d.24xlarge
y trn1.32xlarge
. Las instancias de p5.48xlarge
están disponibles en las regiones de: Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Oregón) y Asia Pacífico (Tokio). Las instancias p5e.48xlarge
están disponibles en la región Este de EE. UU. (Ohio). Las instancias p4d.24xlarge
están disponibles en las regiones Oeste de EE. UU. (Oregón) y Este de EE. UU. (Ohio). Las instancias trn1.32xlarge
están disponibles en la región de Asia-Pacífico (Melbourne). Puede reservar un bloque de capacidad con una hora de inicio de reserva de hasta ocho semanas en el futuro.
Puede utilizar bloques de capacidad para reservar instancias de p5
, p5e
, p4d
y trn1
con las siguientes opciones de duración de la reserva y cantidad de instancias.
-
Duraciones de la reserva en incrementos de 1 día hasta 14 días y en incrementos de 7 días hasta 182 días en total
-
Opciones de cantidad de instancias de reserva de 1, 2, 4, 8, 16, 32 o 64 instancias
Para reservar un bloque de capacidad, comience por especificar sus necesidades de capacidad, lo que incluye, el tipo de instancias, la cantidad de instancias, la cantidad de tiempo, la fecha de inicio más temprana y la fecha de finalización más tardía que necesita. A continuación, podrá ver una oferta de bloques de capacidad disponible que cumpla con sus especificaciones. La oferta de bloques de capacidad incluye detalles como la hora de inicio, la zona de disponibilidad y el precio de la reserva. El precio de una oferta de bloques de capacidad depende de la oferta y la demanda disponibles en el momento en que se hizo la oferta. Después de reservar un bloque de capacidad, el precio no cambia. Para obtener más información, consulte Precios y facturación de bloques de capacidad.
Al comprar una oferta de bloques de capacidad, la reserva se crea para la fecha y el número de instancias que haya seleccionado. Cuando comience su reserva de bloques de capacidad, podrá especificar el ID de reserva en sus solicitudes de inicialización para segmentar los inicializacións de instancias.
Puede usar todas las instancias que reservó hasta 30 minutos antes de la hora de finalización del bloque de capacidad. Cuando queden 30 minutos de su reserva de bloques de capacidad, comenzaremos a terminar todas las instancias que se estén ejecutando en el bloque de capacidad. Aprovechamos este tiempo para limpiar sus instancias antes de entregar el bloque de capacidad al siguiente cliente. Emitimos un evento a través de EventBridge 10 minutos antes de que comience el proceso de terminación. Para obtener más información, consulte Supervisar los bloques de capacidad mediante EventBridge.
Temas
Plataformas admitidas
Los bloques de capacidad para ML actualmente admiten instancias p5.48xlarge
, p5e.48xlarge
, p4d.24xlarge
y trn1.32xlarge
con tenencia predeterminada. Cuando se utiliza AWS Management Console para comprar un bloque de capacidad, la opción de plataforma predeterminada es Linux/UNIX. Al usar la AWS Command Line Interface (AWS CLI) o el SDK de AWS al comprar un bloque de capacidad, están disponibles las siguientes opciones de plataforma:
-
Linux/Unix
-
Red Hat Enterprise Linux
-
RHEL con HA
-
SUSE Linux
-
Ubuntu Pro
Consideraciones
Antes de usar los bloques de capacidad, tenga en cuenta los siguientes detalles y limitaciones.
-
Puede describir las ofertas de bloque de capacidad que pueden comenzar a partir de tan solo 30 minutos.
-
Los bloques de capacidad finalizan a las 11:30 h UTC (horario universal coordinado).
-
El proceso de terminación de las instancias que se ejecutan en un bloque de capacidad comienza a las 11:00 h UTC (horario universal coordinado) el último día de la reserva.
-
Los bloques de capacidad se pueden reservar con una hora de inicio con hasta 8 semanas de antelación.
-
No se admiten modificaciones ni cancelaciones de los bloques de capacidad.
-
Los bloques de capacidad no se pueden compartir entre cuentas de AWS ni dentro de su organización de AWS.
-
Los bloques de capacidad no se pueden usar en un grupo de reserva de capacidad.
-
El número total de instancias que se pueden reservar en bloques de capacidad en todas las cuentas de su organización de AWS no puede superar las 64 instancias en una fecha determinada.
-
Para usar un bloque de capacidad, las instancias deben dirigirse específicamente al ID de reserva.
-
Las instancias de un bloque de capacidad no se tienen en cuenta para los límites de instancias bajo demanda.
-
En el caso de las instancias P5 que utilizan una AMI personalizada, asegúrese de tener el software y la configuración necesarios para la EFA.
-
Para los grupos de nodo gestionados por Amazon EKS, consulte Crear un grupo de nodos gestionado con Amazon EC2 Capacity Blocks para ML. Para los grupos de nodo autogestionados de Amazon EKS, consulte Uso de bloques de capacidad para ML con nodos autogestionados.
Recursos relacionados
Después de crear un bloque de capacidad, podrá hacer lo siguiente con el bloque de capacidad:
-
inicialización de instancias en el bloque de capacidad Para obtener más información, consulte inicialización de instancias en bloques de capacidad.
-
Crear un grupo de Amazon EC2 Auto Scaling. Para obtener más información, consulte Use Capacity Blocks for machine learning workloads en la Guía del usuario de Amazon EC2 Auto Scaling.
nota
Si utiliza Amazon EC2 Auto Scaling o Amazon EKS, puede programar el escalado para que se ejecute al inicio de la reserva del bloque de capacidad. Con el escalado programado, AWS administra automáticamente los reintentos, por lo que no tiene que preocuparse por implementar una lógica de reintentos para administrar los errores transitorios.
-
Mejore los flujos de trabajo de ML con AWS ParallelCluster. Para obtener más información, consulte Mejora de los flujos de trabajo de ML con AWS ParallelCluster y los bloques de capacidad de Amazon EC2 para ML
.
Para obtener más información acerca de AWS ParallelCluster, consulte ¿Qué es AWS ParallelCluster?.