Reserva planes de formación para tus HyperPod grupos o trabajos de formación - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Reserva planes de formación para tus HyperPod grupos o trabajos de formación

Los planes de SageMaker entrenamiento de Amazon son una capacidad que te permite reservar y maximizar el uso de la capacidad de la GPU para cargas de trabajo de entrenamiento de modelos de IA a gran escala. Esta función proporciona acceso a tipos de instancias muy codiciados que cubren una amplia gama de opciones de computación acelerada por la GPU, incluidas las últimas tecnologías de GPU de NVIDIA y los chips Trainium. AWS Con los planes de SageMaker formación, puede garantizar un acceso predecible a estos recursos computacionales de alto rendimiento y alta demanda dentro de los plazos y presupuestos especificados, sin necesidad de administrar la infraestructura subyacente. Esta flexibilidad es especialmente valiosa para las organizaciones que se enfrentan al desafío de adquirir y programar estas instancias de cómputo con un exceso de suscripciones para sus cargas de trabajo de IA esenciales.

SageMaker ¿Qué son los planes de formación

SageMaker Los planes de formación le permiten reservar capacidad de cómputo adaptada a sus necesidades de recursos objetivo, como los trabajos de SageMaker formación o SageMaker HyperPod los clústeres. El servicio gestiona automáticamente la reserva, el aprovisionamiento de recursos informáticos acelerados, la configuración de la infraestructura, la ejecución de la carga de trabajo y la recuperación en caso de averías en la infraestructura.

SageMaker Los planes de formación constan de uno o más bloques de capacidad reservada, cada uno definido por los siguientes parámetros:

  • Tipo de instancia específico

  • Cantidad de instancias

  • Zona de disponibilidad

  • Duración

  • Horarios de inicio y finalización

nota
  • Los planes de formación son específicos para su recurso objetivo ( SageMaker Training Job o SageMaker HyperPod) y no se pueden intercambiar.

  • Varios bloques de capacidad reservada en un mismo plan de entrenamiento pueden ser discontinuos. Esto significa que puede haber huecos entre los bloques de capacidad reservada.

Ventajas de los planes de SageMaker formación

SageMaker los planes de formación ofrecen las siguientes ventajas:

  • Acceso predecible: reserve la capacidad de la GPU para sus cargas de trabajo de aprendizaje automático en plazos específicos.

  • Gestión de costes: planifique y presupueste con antelación los requisitos de formación a gran escala.

  • Gestión automatizada de los recursos: los planes de SageMaker formación gestionan el aprovisionamiento y la gestión de la infraestructura.

  • Flexibilidad: cree planes de formación para diversos recursos, incluidos los trabajos de SageMaker formación y SageMaker HyperPod los clústeres.

  • Tolerancia a los fallos: benefíciese de la recuperación automática de los fallos de la infraestructura y de la migración de la carga de trabajo entre zonas de disponibilidad para SageMaker realizar tareas de formación en IA.

SageMaker planes de formación, reserva anticipada y horarios de inicio flexibles

SageMaker Los planes de formación te permiten reservar la capacidad de cómputo con antelación, con horarios de inicio y duración flexibles.

  • Reserva anticipada: puede reservar un plan de formación con hasta 8 semanas (56 días) de antelación a la fecha de inicio.

  • Plazo de entrega mínimo: es posible que las ofertas de planes de SageMaker formación comiencen en un plazo de 30 minutos a partir de la reserva, según disponibilidad.

    nota

    Puede buscar y comprar un plan al que pueda acceder en 30 minutos. Para garantizar la activación a tiempo, la transacción de pago debe completarse correctamente al menos 5 minutos antes de la hora de inicio deseada. Por ejemplo, si quieres que un plan comience a las 14:00 horas, puedes hacer una búsqueda de última hora a las 13:30 horas y completar la compra antes de las 13:55 horas para garantizar que el plan esté listo antes de las 14:00.

  • Duración de la reserva y cantidad de instancias: los planes de SageMaker formación le permiten reservar instancias con opciones específicas de duración y cantidad. Para ver los tipos de instancias disponibles en Región de AWS determinadas opciones de duración y cantidad, consulteTipos de instancias compatibles y precios Regiones de AWS.

  • Hora de finalización: los planes de entrenamiento siempre finalizan a las 11:30 (hora peninsular española) del último día de la reserva.

  • Finalización del plan de formación: cuando quedan 30 minutos en una capacidad reservada, los planes de SageMaker formación inician el proceso de cerrar cualquier instancia en ejecución dentro de ese bloque hasta que se active la siguiente capacidad reservada. Conservas el acceso total a tu plan de entrenamiento hasta 30 minutos antes de la hora de finalización del último bloque de capacidad reservada.

SageMaker planes de formación, flujo de trabajo de usuarios

SageMaker los planes de formación se basan en los siguientes pasos:

Pasos de administración:

  1. Busque y revise: encuentre las ofertas de planes disponibles que se adapten a sus requisitos informáticos, como el tipo de instancia, el número, la hora de inicio y la duración.

  2. Cree un plan: reserve un plan de formación que se adapte a sus necesidades utilizando el identificador de la oferta de planes que haya elegido.

  3. Pago y programación: si el pago por adelantado se realiza correctamente, el estado del plan pasa Scheduled a ser.

Pasos para los usuarios del plan o los ingenieros de aprendizaje automático:

  1. Asignación de recursos: utilice su plan para poner en cola los trabajos de formación de SageMaker IA o asignarlos a un grupo de instancias de SageMaker HyperPod clúster.

  2. Activación: cuando llega la fecha de inicio del plan, se convierte enActive. En función de la capacidad reservada disponible, los planes de SageMaker formación lanzan automáticamente los trabajos de formación o aprovisionan grupos de instancias.

nota

El estado del plan de formación pasa de Scheduled a Active cuando comienza un período de capacidad reservada y, luego, vuelve a estar a Scheduled la espera de que comience el siguiente período de capacidad reservada.

Los siguientes diagramas proporcionan una visión general completa de cómo los planes de SageMaker formación interactúan con los diferentestarget resources, e ilustran el ciclo de vida de un plan y su función en la asignación de recursos tanto para los trabajos de SageMaker formación como para SageMaker HyperPod los clústeres.

  • Planes de formación para SageMaker Training Job: el primer diagrama ilustra el end-to-end flujo de trabajo de la interacción entre un plan de formación y SageMaker Training Job.

    Facturación, reserva de capacidad con planes de formación y SageMaker Training Job. Ilustración del ciclo de vida del plan de formación y de las condiciones de las tareas de formación gestionadas por administradores e ingenieros de aprendizaje automático.
  • Planes de formación para SageMaker HyperPod clústeres: el segundo diagrama ilustra el end-to-end flujo de trabajo de la interacción entre un plan de formación y un grupo de SageMaker HyperPod instancias.

    Facturación, reserva de capacidad con planes de formación y flujo de trabajo de administración de grupos de instancias. Ilustración del ciclo de vida del plan de formación y de los estados de los grupos de instancias gestionados por administradores e ingenieros de aprendizaje automático.

Tipos de instancias compatibles y precios Regiones de AWS

Los planes de formación admiten reservas para los siguientes tipos específicos de instancias de alto rendimiento, cada uno de los cuales está disponible en Select Regiones de AWS:

  • ml.p4d.24xlarge

  • ml.p5.48 x grande

  • ml.p5e.48x grande

  • ml.p5en. 48 x grande

  • ml.trn 1.32xlarge

  • ml.trn 2,48 x grande

nota

La disponibilidad de los tipos de instancias puede cambiar con el tiempo. Para up-to-date obtener más información sobre los tipos de instancias disponibles por región, así como sus precios respectivos, consulta los precios de SageMaker IA. Desplázate hacia abajo hasta la sección de planes de formación SageMaker HyperPod flexibles de Amazon, en Precios bajo demanda. Selecciona una región para ver la lista de tipos de instancias disponibles.

La disponibilidad en varias regiones permite elegir la ubicación más adecuada para las cargas de trabajo, teniendo en cuenta factores como los requisitos de residencia de los datos y la proximidad a otros AWS servicios.

importante
  • Puede utilizar los planes de SageMaker formación para reservar instancias con las siguientes opciones de duración de reserva y cantidad de instancias.

    • La duración de las reservas está disponible en incrementos de 1 día, de 1 a 182 días.

    • Las opciones de cantidad de instancias de reserva son 1, 2, 4, 8, 16, 32 o 64 instancias.

  • Asegúrese de que sus cuotas de HyperPod servicio o trabajos de formación permitan un número máximo de instancias por tipo de instancia que supere el número de instancias especificado en su plan. Para ver tus cuotas actuales o solicitar un aumento de cuota, consultaConsulta las cuotas SageMaker de los planes de formación mediante la consola AWS de administración.

SageMaker planes de entrenamiento, comportamiento de búsqueda

Al buscar una oferta de planes de formación, los planes de SageMaker formación utilizan el siguiente enfoque para maximizar la disponibilidad de recursos y la flexibilidad para los usuarios, incluso cuando la demanda es alta y los bloques de capacidad reservada son escasos:

  • Búsqueda continua inicial: los planes de SageMaker formación intentan primero encontrar un único bloque continuo de capacidad reservada que coincida con la duración especificada dentro de las fechas de inicio y finalización, y que cumpla con todos los demás criterios especificados, incluidos el recurso objetivo, el tipo de instancia solicitada y el número de instancias.

  • Búsqueda en dos bloques: los planes de SageMaker formación no arrojan un resultado de «sin capacidad» si no está disponible un único bloque continuo de capacidad reservada que cumpla todos los criterios. En su lugar, intenta satisfacer automáticamente la solicitud utilizando dos bloques de capacidad reservada independientes, dividiendo la duración total en dos segmentos de tiempo.

    Este enfoque de dos bloques proporciona más flexibilidad en la asignación de recursos, lo que podría proteger las instancias de alta demanda que, de otro modo, no estarían disponibles.

nota

SageMaker Los planes de formación ofrecen hasta tres ofertas de uno o dos segmentos. Por ejemplo, para un plan de 48 horas de duración, los planes de SageMaker formación pueden ofrecer un plan con dos bloques de 24 horas, un bloque continuo de 48 horas y dos bloques con una duración irregular.

Consideraciones

importante
  • Los planes de formación no se pueden modificar una vez comprados.

  • Los planes de formación no se pueden compartir entre AWS cuentas ni dentro de su AWS organización.

  • Al buscar ofertas de planes de formación, SageMaker Training Plans adapta su estrategia de búsqueda en función detarget resources:

    Para SageMaker HyperPod clústeres:

    • Las ofertas se limitan a una única zona de disponibilidad (AZ).

    • Esto garantiza un rendimiento uniforme de la red y una ubicación de los datos dentro del clúster.

    Para trabajos SageMaker de formación:

    • Las ofertas pueden abarcar varias zonas de disponibilidad.

    • Esto es particularmente relevante cuando la oferta del plan contiene varias capacidades reservadas discontinuas.

    • Por ejemplo, un plan podría incluir capacidad en AZ-A para un bloque de capacidad reservada y AZ-B para otro. SageMaker Los planes de formación pueden mover automáticamente las cargas de trabajo entre las zonas de disponibilidad (AZs) en función de la disponibilidad de los recursos.

      Este enfoque multizona de disponibilidad para los trabajos de formación proporciona una mayor flexibilidad en la asignación de recursos, lo que aumenta las posibilidades de encontrar la capacidad adecuada para su carga de trabajo. Sin embargo, debe tener en cuenta que es posible que sus trabajos se ejecuten de manera diferente AZs durante diferentes momentos del período de reserva.

  • Cuando se les presente una oferta de dos bloques, los usuarios deben considerar detenidamente si esta asignación dividida cumple con sus requisitos de carga de trabajo. Esto puede requerir ajustar la programación del trabajo o la distribución de la carga de trabajo para adaptarse a la naturaleza discontinua de la reserva.