

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# Amazon SageMaker HyperPod でのチェックポイントレストレーニング
<a name="sagemaker-eks-checkpointless"></a>

Amazon SageMaker HyperPod でのチェックポイントレストレーニングにより、トレーニングインフラストラクチャの障害からの迅速な復旧が可能になります。次のドキュメントは、NeMo がサポートするモデルのチェックポイントレストレーニングとファインチューニングを開始するのに役立ちます。

チェックポイントレストレーニングには、次の前提条件があります。
+ [SageMaker HyperPod で Amazon EKS サポートを開始する](sagemaker-hyperpod-eks-prerequisites.md)
+ [トレーニングオペレーターのインストール](sagemaker-eks-operator-install.md)。 v1.2.0 以降をインストールする必要があります。

 SageMaker HyperPod でのチェックポイントレストレーニングは、[NVIDIA NeMo Framework ユーザーガイド](https://docs.nvidia.com/nemo-framework/user-guide/latest/nemotoolkit/core/exp_manager.html#experiment-manager)の上に構築されています。事前に作成された SageMaker HyperPod レシピを使用してチェックポイントレストレーニングを実行できます。NeMo に精通している場合、チェックポイントレストレーニングレシピを使用するプロセスは似ています。軽微な変更を加えると、チェックポイントレストレーニング機能を使用してモデルのトレーニングを開始できます。これにより、トレーニングの障害から迅速に回復できます。

次の HyperPod レシピは、チェックポイントレストレーニングの最適化で事前設定されています。レシピの一部としてデータパスを指定し、関連する起動スクリプトを使用してトレーニングを実行できます (以下のクイックスタートガイドを参照）。


| モデル | 方法 | サイズ | ノード | インスタンス | アクセラレーター | レシピ | スクリプト | チュートリアル | 
| --- | --- | --- | --- | --- | --- | --- | --- | --- | 
| GPT OSS | 完全な微調整の例 | 120b | 16 | p5.48xlarge | GPU H100 | [link](https://github.com/aws/sagemaker-hyperpod-recipes/tree/main/recipes_collection/recipes/fine-tuning/gpt_oss/checkpointless_gpt_oss_120b_full_fine_tuning.yaml) | [link](https://github.com/aws/sagemaker-hyperpod-recipes/tree/main/launcher_scripts/gpt_oss/run_checkpointless_gpt_oss_120b_full_fine_tuning.sh) | [link](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-eks-checkpointless-recipes-finetune.html) | 
| GPT OSS | LoRA の例 | 120b | 2 | p5.48xlarge | GPU H100 | [link](https://github.com/aws/sagemaker-hyperpod-recipes/tree/main/recipes_collection/recipes/fine-tuning/gpt_oss/checkpointless_gpt_oss_120b_lora.yaml) | [link](https://github.com/aws/sagemaker-hyperpod-recipes/tree/main/launcher_scripts/gpt_oss/run_checkpointless_gpt_oss_120b_lora.sh) | [link](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-eks-checkpointless-recipes-peft.html) | 
| Llama3 | 事前トレーニングの例 | 70b | 16 | p5.48xlarge | GPU H100 | [link](https://github.com/aws/sagemaker-hyperpod-recipes/tree/main/recipes_collection/recipes/training/llama/checkpointless_llama3_70b_pretrain.yaml) | [link](https://github.com/aws/sagemaker-hyperpod-recipes/tree/main/launcher_scripts/llama/run_checkpointless_llama3_70b_pretrain.sh) | [link](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-eks-checkpointless-recipes-pretraining-llama3.html) | 
| Llama3 | LoRA の例 | 70b | 2 | p5.48xlarge | GPU H100 | [link](https://github.com/aws/sagemaker-hyperpod-recipes/tree/main/recipes_collection/recipes/fine-tuning/llama/checkpointless_llama3_70b_lora.yaml) | [link](https://github.com/aws/sagemaker-hyperpod-recipes/tree/main/launcher_scripts/llama/run_checkpointless_llama3_70b_lora.sh) | [link](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-eks-checkpointless-recipes-peft-llama.html) | 

次のクイックスタートガイドでは、チェックポイントレストレーニングレシピを使用するためのチュートリアルを提供します。

**開始方法の例**
+ [チュートリアル - Amazon SageMaker HyperPod Checkpointless Full Finetuning GPT OSS 120b](sagemaker-eks-checkpointless-recipes-finetune.md)
+ [チュートリアル - Amazon SageMaker HyperPod チェックポイントレス PEFT-LoRA GPT OSS 120b](sagemaker-eks-checkpointless-recipes-peft.md)
+ [チュートリアル - Amazon SageMaker HyperPod Checkpointless Pretraining Llama 3 70b](sagemaker-eks-checkpointless-recipes-pretraining-llama3.md)
+ [チュートリアル - Amazon SageMaker HyperPod Checkpointless PEFT-LoRA Llama 3 70b](sagemaker-eks-checkpointless-recipes-peft-llama.md)

カスタムモデルを事前トレーニングまたは微調整する場合は、「」を参照してください[チュートリアル - Amazon SageMaker HyperPod チェックポイントレス事前トレーニングまたはカスタムモデルの微調整](sagemaker-eks-checkpointless-recipes-custom.md)。

特定のチェックポイントレストレーニングコンポーネントの組み込みの詳細については、「」を参照してください[HyperPod チェックポイントレストレーニング機能](sagemaker-eks-checkpointless-features.md)。