

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Treinamento sem controle na Amazon SageMaker HyperPod
<a name="sagemaker-eks-checkpointless"></a>

O treinamento Checkpointless na Amazon SageMaker HyperPod permite uma recuperação mais rápida de falhas na infraestrutura de treinamento. A documentação a seguir ajuda você a começar com o treinamento sem pontos de verificação e o ajuste fino dos modelos compatíveis. NeMo

O treinamento Checkpointless tem os seguintes pré-requisitos:
+ [Comece a usar o suporte do Amazon EKS em SageMaker HyperPod](sagemaker-hyperpod-eks-prerequisites.md)
+ [Instalar do operador de treinamento](sagemaker-eks-operator-install.md). Você deve instalar a versão v1.2.0 ou superior.

 O treinamento do Checkpointless SageMaker HyperPod é baseado no Guia do usuário do [NVIDIA NeMo Framework](https://docs.nvidia.com/nemo-framework/user-guide/latest/nemotoolkit/core/exp_manager.html#experiment-manager). Você pode realizar um treinamento sem pontos de verificação com receitas SageMaker HyperPod pré-criadas. Se você estiver familiarizado NeMo, o processo de usar as receitas de treinamento sem pontos de verificação é semelhante. Com pequenas alterações, você pode começar a treinar um modelo usando recursos de treinamento sem pontos de verificação que permitem que você se recupere rapidamente de falhas de treinamento.

As HyperPod receitas a seguir são pré-configuradas com otimizações de treinamento sem pontos de verificação. Você pode especificar seus caminhos de dados como parte da receita e usar o script de inicialização associado para executar o treinamento (consulte o guia de início rápido abaixo):


| Modelo | Método | Tamanho | Nodes | Instância | Acelerador | Fórmula | Script | Tutorial | 
| --- | --- | --- | --- | --- | --- | --- | --- | --- | 
| PERDA DE PESO | Exemplo completo de ajuste fino | 120b | 16 | p5.48xlarge | GPU H100 | [link](https://github.com/aws/sagemaker-hyperpod-recipes/tree/main/recipes_collection/recipes/fine-tuning/gpt_oss/checkpointless_gpt_oss_120b_full_fine_tuning.yaml) | [link](https://github.com/aws/sagemaker-hyperpod-recipes/tree/main/launcher_scripts/gpt_oss/run_checkpointless_gpt_oss_120b_full_fine_tuning.sh) | [link](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-eks-checkpointless-recipes-finetune.html) | 
| PERDA DE PESO | Exemplo de Lora | 120b | 2 | p5.48xlarge | GPU H100 | [link](https://github.com/aws/sagemaker-hyperpod-recipes/tree/main/recipes_collection/recipes/fine-tuning/gpt_oss/checkpointless_gpt_oss_120b_lora.yaml) | [link](https://github.com/aws/sagemaker-hyperpod-recipes/tree/main/launcher_scripts/gpt_oss/run_checkpointless_gpt_oss_120b_lora.sh) | [link](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-eks-checkpointless-recipes-peft.html) | 
| Lhama3 | Exemplo de pré-treinamento | 70b | 16 | p5.48xlarge | GPU H100 | [link](https://github.com/aws/sagemaker-hyperpod-recipes/tree/main/recipes_collection/recipes/training/llama/checkpointless_llama3_70b_pretrain.yaml) | [link](https://github.com/aws/sagemaker-hyperpod-recipes/tree/main/launcher_scripts/llama/run_checkpointless_llama3_70b_pretrain.sh) | [link](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-eks-checkpointless-recipes-pretraining-llama3.html) | 
| Lhama3 | Exemplo de Lora | 70b | 2 | p5.48xlarge | GPU H100 | [link](https://github.com/aws/sagemaker-hyperpod-recipes/tree/main/recipes_collection/recipes/fine-tuning/llama/checkpointless_llama3_70b_lora.yaml) | [link](https://github.com/aws/sagemaker-hyperpod-recipes/tree/main/launcher_scripts/llama/run_checkpointless_llama3_70b_lora.sh) | [link](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-eks-checkpointless-recipes-peft-llama.html) | 

O guia de início rápido a seguir fornece tutoriais para usar receitas de treinamento sem pontos de verificação:

**Exemplos de introdução**
+ [Tutoriais - Amazon SageMaker HyperPod Checkpointless Full Finetuning GPT OSS 120b](sagemaker-eks-checkpointless-recipes-finetune.md)
+ [Tutoriais - Amazon SageMaker HyperPod Checkpointless PEFT-Lora GPT OSS 120b](sagemaker-eks-checkpointless-recipes-peft.md)
+ [Tutoriais - Amazon SageMaker HyperPod Checkpointless Pretraining Llama 3 70b](sagemaker-eks-checkpointless-recipes-pretraining-llama3.md)
+ [Tutoriais - Amazon SageMaker HyperPod Checkpointless PEFT-lora Llama 3 70b](sagemaker-eks-checkpointless-recipes-peft-llama.md)

Se você quiser pré-treinar ou ajustar modelos personalizados, consulte. [Tutoriais - Pré-treinamento ou ajuste fino de modelos personalizados do Amazon SageMaker HyperPod Checkpointless](sagemaker-eks-checkpointless-recipes-custom.md)

Para saber mais sobre a incorporação de componentes específicos de treinamento sem pontos de verificação,. [HyperPod recursos de treinamento sem pontos de verificação](sagemaker-eks-checkpointless-features.md)