

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Pelatihan tanpa pos pemeriksaan di Amazon SageMaker HyperPod
<a name="sagemaker-eks-checkpointless"></a>

Pelatihan tanpa pos pemeriksaan di Amazon SageMaker HyperPod memungkinkan pemulihan yang lebih cepat dari kesalahan infrastruktur pelatihan. Dokumentasi berikut membantu Anda memulai pelatihan tanpa pemeriksaan dan penyempurnaan untuk model yang didukung. NeMo

Pelatihan tanpa pos pemeriksaan memiliki prasyarat berikut:
+ [Memulai dengan dukungan Amazon EKS di SageMaker HyperPod](sagemaker-hyperpod-eks-prerequisites.md)
+ [Menginstal operator pelatihan](sagemaker-eks-operator-install.md). Anda harus menginstal v1.2.0 atau lebih tinggi.

 Pelatihan checkpointless dibangun di SageMaker HyperPod atas [Panduan Pengguna NVIDIA NeMo Framework](https://docs.nvidia.com/nemo-framework/user-guide/latest/nemotoolkit/core/exp_manager.html#experiment-manager). Anda dapat menjalankan pelatihan tanpa pemeriksaan dengan resep yang telah dibuat sebelumnya SageMaker HyperPod . Jika Anda terbiasa NeMo, proses menggunakan resep pelatihan tanpa pemeriksaan serupa. Dengan perubahan kecil, Anda dapat mulai melatih model menggunakan fitur pelatihan tanpa pemeriksaan yang memungkinkan Anda pulih dengan cepat dari kesalahan pelatihan.

 HyperPod Resep berikut sudah dikonfigurasi sebelumnya dengan optimasi pelatihan tanpa pemeriksaan. Anda dapat menentukan jalur data Anda sebagai bagian dari resep dan menggunakan skrip peluncuran terkait untuk menjalankan pelatihan (lihat panduan mulai cepat di bawah):


| Model | Metode | Size | Node | Instans | Akselerator | Resep | Skrip | Tutorial | 
| --- | --- | --- | --- | --- | --- | --- | --- | --- | 
| GPT OSS | Contoh finetune lengkap | 120b | 16 | p5.48xlarge | GPU H100 | [tautan](https://github.com/aws/sagemaker-hyperpod-recipes/tree/main/recipes_collection/recipes/fine-tuning/gpt_oss/checkpointless_gpt_oss_120b_full_fine_tuning.yaml) | [tautan](https://github.com/aws/sagemaker-hyperpod-recipes/tree/main/launcher_scripts/gpt_oss/run_checkpointless_gpt_oss_120b_full_fine_tuning.sh) | [tautan](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-eks-checkpointless-recipes-finetune.html) | 
| GPT OSS | Contoh Lora | 120b | 2 | p5.48xlarge | GPU H100 | [tautan](https://github.com/aws/sagemaker-hyperpod-recipes/tree/main/recipes_collection/recipes/fine-tuning/gpt_oss/checkpointless_gpt_oss_120b_lora.yaml) | [tautan](https://github.com/aws/sagemaker-hyperpod-recipes/tree/main/launcher_scripts/gpt_oss/run_checkpointless_gpt_oss_120b_lora.sh) | [tautan](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-eks-checkpointless-recipes-peft.html) | 
| Llama3 | Contoh pretrain | 70b | 16 | p5.48xlarge | GPU H100 | [tautan](https://github.com/aws/sagemaker-hyperpod-recipes/tree/main/recipes_collection/recipes/training/llama/checkpointless_llama3_70b_pretrain.yaml) | [tautan](https://github.com/aws/sagemaker-hyperpod-recipes/tree/main/launcher_scripts/llama/run_checkpointless_llama3_70b_pretrain.sh) | [tautan](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-eks-checkpointless-recipes-pretraining-llama3.html) | 
| Llama3 | Contoh Lora | 70b | 2 | p5.48xlarge | GPU H100 | [tautan](https://github.com/aws/sagemaker-hyperpod-recipes/tree/main/recipes_collection/recipes/fine-tuning/llama/checkpointless_llama3_70b_lora.yaml) | [tautan](https://github.com/aws/sagemaker-hyperpod-recipes/tree/main/launcher_scripts/llama/run_checkpointless_llama3_70b_lora.sh) | [tautan](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-eks-checkpointless-recipes-peft-llama.html) | 

Panduan memulai cepat berikut menyediakan tutorial untuk menggunakan resep pelatihan tanpa pemeriksaan:

**Memulai contoh**
+ [Tutorial - Amazon SageMaker HyperPod Checkpointless Full Finetuning GPT OSS 120b](sagemaker-eks-checkpointless-recipes-finetune.md)
+ [Tutorial - Amazon SageMaker HyperPod Checkpointless PEFT-LoRA GPT OSS 120b](sagemaker-eks-checkpointless-recipes-peft.md)
+ [Tutorial - Amazon SageMaker HyperPod Checkpointless Pretraining Llama 3 70b](sagemaker-eks-checkpointless-recipes-pretraining-llama3.md)
+ [Tutorial - Amazon SageMaker HyperPod Checkpointless Peft-LoRa Llama 3 70b](sagemaker-eks-checkpointless-recipes-peft-llama.md)

Jika Anda ingin melakukan pra-latih atau menyempurnakan model khusus, lihat. [Tutorial - Amazon SageMaker HyperPod Checkpointless Pretraining atau Finetuning Model Kustom](sagemaker-eks-checkpointless-recipes-custom.md)

Untuk mempelajari lebih lanjut tentang menggabungkan komponen pelatihan tanpa pos pemeriksaan tertentu,. [HyperPod fitur pelatihan checkpointless](sagemaker-eks-checkpointless-features.md)