As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Reserve planos de treinamento para seus trabalhos ou HyperPod grupos de treinamento
Os planos SageMaker de treinamento da Amazon são um recurso que permite que você reserve e ajude a maximizar o uso da capacidade da GPU para cargas de trabalho de treinamento de modelos de IA em grande escala. Esse recurso fornece acesso a tipos de instância muito procurados que abrangem uma variedade de opções de computação acelerada por GPU, incluindo as mais recentes tecnologias de GPU NVIDIA e chips Trainium. AWS Com os planos de SageMaker treinamento, você pode garantir acesso previsível a esses recursos computacionais de alta demanda e alto desempenho dentro dos prazos e orçamentos especificados, sem a necessidade de gerenciar a infraestrutura subjacente. Essa flexibilidade é particularmente valiosa para organizações que lidam com os desafios de adquirir e programar essas instâncias de computação com excesso de assinaturas para suas cargas de trabalho de IA de missão crítica.
O que são planos SageMaker de treinamento
SageMaker os planos de treinamento permitem que você reserve a capacidade computacional adaptada às suas necessidades de recursos alvo, como trabalhos de SageMaker treinamento ou SageMaker HyperPod clusters. O serviço gerencia automaticamente a reserva, o provisionamento de recursos computacionais acelerados, a configuração da infraestrutura, a execução da carga de trabalho e a recuperação de falhas na infraestrutura.
SageMaker os planos de treinamento consistem em um ou mais blocos de capacidade reservada, cada um definido pelos seguintes parâmetros:
-
Tipo de instância específico
-
Quantidade de instâncias
-
Zona de disponibilidade
-
Duração
-
Horários de início e término
nota
-
Os planos de treinamento são específicos para seu recurso alvo ( SageMaker Training Job ou SageMaker HyperPod) e não podem ser trocados.
-
Vários blocos de capacidade reservada em um único plano de treinamento podem ser descontínuos. Isso significa que pode haver lacunas entre os blocos de capacidade reservada.
Benefícios dos planos SageMaker de treinamento
SageMaker os planos de treinamento oferecem os seguintes benefícios:
-
Acesso previsível: reserve a capacidade da GPU para suas cargas de trabalho de aprendizado de máquina dentro de prazos especificados.
-
Gerenciamento de custos: planeje e faça um orçamento para requisitos de treinamento em grande escala com antecedência.
-
Gerenciamento automatizado de recursos: os planos de SageMaker treinamento lidam com o provisionamento e o gerenciamento da infraestrutura.
-
Flexibilidade: crie planos de treinamento para vários recursos, incluindo cargos e SageMaker HyperPod grupos de SageMaker treinamento.
-
Tolerância a falhas: beneficie-se da recuperação automática de falhas na infraestrutura e da migração da carga de trabalho entre zonas de disponibilidade para trabalhos de treinamento de SageMaker IA.
SageMaker planos de treinamento, reserva antecipada e horários de início flexíveis
SageMaker os planos de treinamento permitem que você reserve a capacidade computacional com antecedência, com horários e durações de início flexíveis.
-
Reserva antecipada: você pode reservar um plano de treinamento até 8 semanas (56 dias) antes da data de início.
-
Prazo mínimo de entrega: as ofertas de planos de SageMaker treinamento podem estar disponíveis para começar em até 30 minutos após a reserva, sujeitas à disponibilidade.
nota
Você pode pesquisar e comprar um plano que estará acessível em 30 minutos. Para garantir a ativação oportuna, a transação de pagamento deve ser concluída com êxito pelo menos 5 minutos antes do horário de início desejado. Por exemplo, se quiser que um plano comece às 14h, você pode fazer uma pesquisa de última hora até 13h30 e concluir sua compra até 13h55 para garantir que o plano esteja pronto até 14h.
-
Duração da reserva e quantidade de instâncias: os planos de SageMaker treinamento permitem que você reserve instâncias com opções específicas de duração e quantidade. Para ver os tipos de instância disponíveis em determinadas Região da AWS opções, de duração e quantidade, consulteTipos de instância Regiões da AWS e preços suportados.
-
Horário de término: os planos de treinamento sempre terminam às 11h30 UTC do último dia da reserva.
-
Encerramento do plano de treinamento: quando restam 30 minutos em uma capacidade reservada, os planos de SageMaker treinamento iniciam o processo de encerramento de todas as instâncias em execução dentro desse bloco até que a próxima capacidade reservada se torne ativa. Você mantém acesso total ao seu plano de treinamento até 30 minutos antes do horário final do bloco de Capacidade Reservada.
SageMaker planos de treinamento, fluxo de trabalho do usuário
SageMaker os planos de treinamento funcionam de acordo com as seguintes etapas:
Etapas administrativas:
-
Pesquise e analise: encontre ofertas de planos disponíveis que atendam aos seus requisitos de computação, como tipo, contagem, horário de início e duração da instância.
-
Crie um plano: reserve um plano de treinamento que atenda às suas necessidades usando o ID da oferta de plano escolhida.
-
Pagamento e agendamento: após o pagamento antecipado bem-sucedido, o status do plano se torna.
Scheduled
Etapas para usuários do plano/engenheiros de ML:
-
Alocação de recursos: use seu plano para enfileirar trabalhos de treinamento de SageMaker IA ou alocar para um SageMaker HyperPod grupo de instâncias de cluster.
-
Ativação: Quando a data de início do plano chega, ela se torna
Active
. Com base na capacidade reservada disponível, os planos SageMaker de treinamento iniciam automaticamente trabalhos de treinamento ou provisionam grupos de instâncias.
nota
O status do plano de treinamento muda de Scheduled
para Active
quando um período de capacidade reservada começa e depois volta para Scheduled
quando se aguarda o início do próximo período de capacidade reservada.
Os diagramas a seguir fornecem uma visão geral abrangente de como os planos de SageMaker treinamento interagem com diferentestarget resources, ilustrando o ciclo de vida de um plano e seu papel na alocação de recursos tanto para trabalhos de treinamento quanto SageMaker para clusters. SageMaker HyperPod
-
Planos de SageMaker treinamento para Training Job: O primeiro diagrama ilustra o end-to-end fluxo de trabalho da interação entre um plano de treinamento e SageMaker Training Job.
-
Planos de treinamento para SageMaker HyperPod clusters: o segundo diagrama ilustra o end-to-end fluxo de trabalho da interação entre um plano de treinamento e um grupo de SageMaker HyperPod instâncias.
Tipos de instância Regiões da AWS e preços suportados
Os planos de treinamento oferecem suporte a reservas para os seguintes tipos específicos de instâncias de alto desempenho, cada um disponível em alguns Regiões da AWS deles:
-
ml.p4d.24xlarge
-
ml.p 5.48xlarge
-
ml.p5e.48xlarge
-
ml.p5en.48xlarge
-
ml.trn1.32xlarge
-
ml.trn2.48xlarge
nota
A disponibilidade dos tipos de instância pode mudar com o tempo. Para up-to-date obter mais informações sobre os tipos de instância disponíveis de acordo com a região, bem como seus respectivos preços, consulte Preços de SageMaker IA
A disponibilidade em várias regiões permite escolher o local mais adequado para cargas de trabalho, considerando fatores como requisitos de residência de dados e proximidade de outros AWS serviços.
Importante
-
Você pode usar planos SageMaker de treinamento para reservar instâncias com as seguintes opções de duração da reserva e quantidade de instâncias.
-
As durações das reservas estão disponíveis em incrementos de 1 dia, de 1 a 182 dias.
-
As opções de quantidade de instâncias de reserva são 1, 2, 4, 8, 16, 32 ou 64 instâncias.
-
-
Certifique-se de que seus trabalhos de treinamento ou cotas de HyperPod serviço permitam um número máximo de instâncias por tipo de instância que exceda o número de instâncias especificado em seu plano. Para ver suas cotas atuais ou solicitar um aumento de cota, consulte. Veja as cotas dos planos de SageMaker treinamento usando o console AWS de gerenciamento
SageMaker comportamento de busca de planos de treinamento
Ao pesquisar uma oferta de plano de treinamento, os planos de SageMaker treinamento usam a seguinte abordagem para maximizar a disponibilidade e a flexibilidade dos recursos para os usuários, mesmo quando a demanda é alta e os blocos de capacidade reservada são escassos:
-
Pesquisa contínua inicial: os planos de SageMaker treinamento tentam primeiro encontrar um único bloco contínuo de capacidade reservada que corresponda à duração especificada nas datas de início e término, ao mesmo tempo em que atenda a todos os outros critérios especificados, incluindo o recurso alvo, o tipo de instância solicitada e o número de instâncias.
-
Pesquisa em dois blocos: os planos de SageMaker treinamento não retornam um resultado “sem capacidade” se um único bloco contínuo de capacidade reservada que atenda a todos os critérios não estiver disponível. Em vez disso, ele tenta atender automaticamente à solicitação usando dois blocos de capacidade reservada separados, dividindo a duração total em dois segmentos de tempo.
Essa abordagem de dois blocos fornece mais flexibilidade na alocação de recursos, potencialmente protegendo instâncias de alta demanda que, de outra forma, não estariam disponíveis.
nota
SageMaker os planos de treinamento retornam até três ofertas de um ou dois segmentos. Por exemplo, para um plano de duração de 48 horas, os planos de SageMaker treinamento podem oferecer um plano com dois blocos de 24 horas, um bloco contínuo de 48 horas e dois blocos com duração desigual.
Considerações
Importante
-
Os planos de treinamento não podem ser modificados após a compra.
-
Os planos de treinamento não podem ser compartilhados entre AWS contas ou dentro AWS da sua organização.
-
Ao pesquisar ofertas de planos de treinamento, os planos de SageMaker treinamento adaptam sua estratégia de pesquisa com base em: target resources
Para SageMaker HyperPod clusters:
-
As ofertas são limitadas a uma única zona de disponibilidade (AZ).
-
Isso garante desempenho de rede consistente e localidade de dados dentro do cluster.
Para trabalhos SageMaker de treinamento:
-
As ofertas podem abranger várias zonas de disponibilidade.
-
Isso é particularmente relevante quando a oferta do plano contém várias capacidades reservadas descontínuas.
-
Por exemplo, um plano pode incluir capacidade em AZ-A para um bloco de capacidade reservada e AZ-B para outro. SageMaker os planos de treinamento podem mover automaticamente as cargas de trabalho entre as zonas de disponibilidade (AZs) com base na disponibilidade dos recursos.
Essa abordagem Multi-AZ para trabalhos de treinamento oferece maior flexibilidade na alocação de recursos, aumentando as chances de encontrar a capacidade adequada para sua carga de trabalho. No entanto, você deve estar ciente de que seus trabalhos podem ser executados de forma diferente AZs durante diferentes partes do período de reserva.
-
-
Ao receber uma oferta de dois blocos, os usuários devem considerar cuidadosamente se essa alocação dividida atende aos requisitos de carga de trabalho. Isso pode exigir o ajuste do agendamento do trabalho ou da distribuição da carga de trabalho para acomodar a natureza não contínua da reserva.