As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Treinamento local gerenciado na Amazon SageMaker
A Amazon SageMaker facilita o treinamento de modelos de aprendizado de máquina usando instâncias gerenciadas do Amazon EC2 Spot. O treinamento gerenciado de spots pode otimizar o custo do treinamento de modelos em até 90% em relação às instâncias sob demanda. SageMaker gerencia as interrupções do Spot em seu nome.
O Managed Spot Training usa a instância Amazon EC2 Spot para executar trabalhos de treinamento em vez de instâncias sob demanda. Você pode especificar quais trabalhos de treinamento usam instâncias spot e uma condição de parada que especifica quanto tempo SageMaker espera para que um trabalho seja executado usando instâncias EC2 spot da Amazon. Métricas e registros gerados durante as corridas de treinamento estão disponíveis em CloudWatch.
O ajuste SageMaker automático de modelos da Amazon, também conhecido como ajuste de hiperparâmetros, pode usar treinamento pontual gerenciado. Para obter mais informações sobre juste automático de modelos consulte Ajuste automático do modelo com SageMaker.
As instâncias spot podem ser interrompidas, fazendo com que os trabalhos decorram mais tempo para serem iniciados ou concluídos. Você pode configurar seu trabalho de treinamento local gerenciado para usar pontos de verificação. SageMaker copia dados do ponto de verificação de um caminho local para o Amazon S3. Quando o trabalho é reiniciado, SageMaker copia os dados do Amazon S3 de volta para o caminho local. Depois, o trabalho de treinamento pode ser retomado a partir do último ponto de verificação, em vez de reiniciado. Para obter mais informações sobre definição de pontos de verificação, consulte Pontos de verificação na Amazon SageMaker.
nota
A menos que seu trabalho de treinamento seja concluído rapidamente, recomendamos que você use o checkpoint com treinamento pontual gerenciado. SageMaker algoritmos integrados e algoritmos de mercado que não verificam pontos MaxWaitTimeInSeconds
de verificação estão atualmente limitados a 3600 segundos (60 minutos).
Para usar o treinamento gerenciado de spots, crie um trabalho de treinamento. Defina EnableManagedSpotTraining
como True
e especifique o MaxWaitTimeInSeconds
. MaxWaitTimeInSeconds
deve ser maior que MaxRuntimeInSeconds
. Para obter mais informações sobre a criação de um trabalho de treinamento, consulte DescribeTrainingJob.
Você pode calcular a economia do uso do treinamento gerenciado de spots usando a fórmula (1 -
(BillableTimeInSeconds / TrainingTimeInSeconds)) * 100
. Por exemplo, se BillableTimeInSeconds
for 100 e TrainingTimeInSeconds
for 500, isso significa que seu trabalho de treinamento foi executado por 500 segundos, mas você foi cobrado por apenas 100 segundos. Sua economia é (1 - (100 / 500)) * 100 = 80%.
Para saber como executar trabalhos de treinamento nas instâncias SageMaker spot da Amazon e como o treinamento spot gerenciado funciona e reduz o tempo faturável, consulte os seguintes exemplos de cadernos: