bloques de capacidad para ML - Amazon Elastic Compute Cloud

bloques de capacidad para ML

bloques de capacidad para ML le permite reservar instancias de GPU que tienen una alta demanda para el futuro a fin de respaldar sus cargas de trabajo de machine learning (ML) de corta duración. Las instancias que se ejecutan en un bloque de capacidad se colocan automáticamente cerca dentro de Amazon EC2 UltraClusters para conseguir redes que no generen bloqueos, de escala de petabits y de baja latencia.

Con bloques de capacidad, puede ver cuándo estará disponible la capacidad de las instancias de GPU en fechas futuras y programar un bloque de capacidad para que comience a la hora que mejor le convenga. Cuando reserva un bloque de capacidad, obtiene una garantía de capacidad predecible para las instancias de GPU y paga solo por el tiempo que necesite. Recomendamos bloques de capacidad si necesita GPU para respaldar sus cargas de trabajo de ML durante días o semanas y no quiere pagar una reserva mientras las instancias de GPU no estén en uso.

A continuación, se indican algunos casos de uso frecuentes de bloques de capacidad.

  • Entrenamiento y ajuste de modelos de ML: obtenga acceso ininterrumpido a las instancias de GPU que reservó para completar el entrenamiento y el ajuste de los modelos de ML.

  • Experimentos y prototipos de ML: ejecute experimentos y cree prototipos que requieran instancias de GPU durante periodos cortos.

Los bloques de capacidad están disponibles actualmente para instancias p5.48xlarge, p5e.48xlarge, p4d.24xlarge y trn1.32xlarge. Las instancias de p5.48xlarge están disponibles en las regiones de: Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Oregón) y Asia Pacífico (Tokio). Las instancias p5e.48xlarge están disponibles en la región Este de EE. UU. (Ohio). Las instancias p4d.24xlarge están disponibles en las regiones Oeste de EE. UU. (Oregón) y Este de EE. UU. (Ohio). Las instancias trn1.32xlarge están disponibles en la región de Asia-Pacífico (Melbourne). Puede reservar un bloque de capacidad con una hora de inicio de reserva de hasta ocho semanas en el futuro.

Puede utilizar bloques de capacidad para reservar instancias de p5, p5e, p4d y trn1 con las siguientes opciones de duración de la reserva y cantidad de instancias.

  • Duraciones de la reserva en incrementos de 1 día hasta 14 días y en incrementos de 7 días hasta 182 días en total

  • Opciones de cantidad de instancias de reserva de 1, 2, 4, 8, 16, 32 o 64 instancias

Para reservar un bloque de capacidad, comience por especificar sus necesidades de capacidad, lo que incluye, el tipo de instancias, la cantidad de instancias, la cantidad de tiempo, la fecha de inicio más temprana y la fecha de finalización más tardía que necesita. A continuación, podrá ver una oferta de bloques de capacidad disponible que cumpla con sus especificaciones. La oferta de bloques de capacidad incluye detalles como la hora de inicio, la zona de disponibilidad y el precio de la reserva. El precio de una oferta de bloques de capacidad depende de la oferta y la demanda disponibles en el momento en que se hizo la oferta. Después de reservar un bloque de capacidad, el precio no cambia. Para obtener más información, consulte Precios y facturación de bloques de capacidad.

Al comprar una oferta de bloques de capacidad, la reserva se crea para la fecha y el número de instancias que haya seleccionado. Cuando comience su reserva de bloques de capacidad, podrá especificar el ID de reserva en sus solicitudes de inicialización para segmentar los inicializacións de instancias.

Puede usar todas las instancias que reservó hasta 30 minutos antes de la hora de finalización del bloque de capacidad. Cuando queden 30 minutos de su reserva de bloques de capacidad, comenzaremos a terminar todas las instancias que se estén ejecutando en el bloque de capacidad. Aprovechamos este tiempo para limpiar sus instancias antes de entregar el bloque de capacidad al siguiente cliente. Emitimos un evento a través de EventBridge 10 minutos antes de que comience el proceso de terminación. Para obtener más información, consulte Supervisar los bloques de capacidad mediante EventBridge.

Plataformas admitidas

Los bloques de capacidad para ML actualmente admiten instancias p5.48xlarge, p5e.48xlarge, p4d.24xlarge y trn1.32xlarge con tenencia predeterminada. Cuando se utiliza AWS Management Console para comprar un bloque de capacidad, la opción de plataforma predeterminada es Linux/UNIX. Al usar la AWS Command Line Interface (AWS CLI) o el SDK de AWS al comprar un bloque de capacidad, están disponibles las siguientes opciones de plataforma:

  • Linux/Unix

  • Red Hat Enterprise Linux

  • RHEL con HA

  • SUSE Linux

  • Ubuntu Pro

Consideraciones

Antes de usar los bloques de capacidad, tenga en cuenta los siguientes detalles y limitaciones.

  • Puede describir las ofertas de bloque de capacidad que pueden comenzar a partir de tan solo 30 minutos.

  • Los bloques de capacidad finalizan a las 11:30 h UTC (horario universal coordinado).

  • El proceso de terminación de las instancias que se ejecutan en un bloque de capacidad comienza a las 11:00 h UTC (horario universal coordinado) el último día de la reserva.

  • Los bloques de capacidad se pueden reservar con una hora de inicio con hasta 8 semanas de antelación.

  • No se admiten modificaciones ni cancelaciones de los bloques de capacidad.

  • Los bloques de capacidad no se pueden compartir entre cuentas de AWS ni dentro de su organización de AWS.

  • Los bloques de capacidad no se pueden usar en un grupo de reserva de capacidad.

  • El número total de instancias que se pueden reservar en bloques de capacidad en todas las cuentas de su organización de AWS no puede superar las 64 instancias en una fecha determinada.

  • Para usar un bloque de capacidad, las instancias deben dirigirse específicamente al ID de reserva.

  • Las instancias de un bloque de capacidad no se tienen en cuenta para los límites de instancias bajo demanda.

  • En el caso de las instancias P5 que utilizan una AMI personalizada, asegúrese de tener el software y la configuración necesarios para la EFA.

  • Para los grupos de nodo gestionados por Amazon EKS, consulte Crear un grupo de nodos gestionado con Amazon EC2 Capacity Blocks para ML. Para los grupos de nodo autogestionados de Amazon EKS, consulte Uso de bloques de capacidad para ML con nodos autogestionados.

Después de crear un bloque de capacidad, podrá hacer lo siguiente con el bloque de capacidad:

Para obtener más información acerca de AWS ParallelCluster, consulte ¿Qué es AWS ParallelCluster?.