HyperPod GPU Slurm 環境をセットアップするトレーニングジョブを起動する

HyperPod Slurm クラスター PEFT-Lora チュートリアル (GPU)

次のチュートリアルでは、Slurm 環境を設定し、Llama 80 億パラメータモデルでパラメータ効率に優れたファインチューニング (PEFT) ジョブを開始します。

前提条件

環境のセットアップを開始する前に、以下を確認します。

HyperPod GPU Slurm クラスターをセットアップする
- HyperPod Slurm クラスターでは、Nvidia Enroot と Pyxis が有効になっている必要があります (これらはデフォルトで有効になっています)。
共有ストレージの場所。クラスターノードからアクセスできる Amazon FSx ファイルシステムまたは NFS システムでかまいません。
以下の形式のいずれか。
- JSON
- JSONGZ (圧縮 JSON)
- ARROW
(オプション) HuggingFace から事前にトレーニングされた重みが必要な場合、または Llama 3.2 モデルをトレーニングしている場合は、トレーニングを開始する前に HuggingFace トークンを取得する必要があります。アクセストークンの詳細については、「ユーザーアクセストークン」を参照してください。

HyperPod GPU Slurm 環境をセットアップする

Slurm クラスターでトレーニングジョブを開始するには、次の手順を実行します。

クラスターのヘッドノードに SSH 接続します。
ログインしたら、仮想環境を設定します。Python 3.9 以降を使用していることを確認します。
```
#set up a virtual environment
python3 -m venv ${PWD}/venv
source venv/bin/activate
```
共有ストレージの場所に、SageMaker HyperPod レシピと SageMaker HyperPod アダプタリポジトリのクローンを作成します。共有ストレージの場所は、クラスターノードからアクセスできる Amazon FSx ファイルシステムまたは NFS システムでかまいません。
```
git clone https://github.com/aws/sagemaker-hyperpod-training-adapter-for-nemo.git
git clone --recursive https://github.com/aws/sagemaker-hyperpod-recipes.git
cd sagemaker-hyperpod-recipes
pip3 install -r requirements.txt
```

Enroot を使用してスカッシュファイルを作成します。SMP コンテナの最新リリースを確認するには、「SageMaker モデル並列処理ライブラリのリリースノート」を参照してください。Enroot ファイルの使用の詳細については、AWS「ビルド最適化 Nemo-Launcher イメージ」を参照してください。


REGION="<region>"
IMAGE="658645717510.dkr.ecr.${REGION}.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121"
aws ecr get-login-password --region ${REGION} | docker login --username AWS --password-stdin 658645717510.dkr.ecr.${REGION}.amazonaws.com
enroot import -o $PWD/smdistributed-modelparallel.sqsh dockerd://${IMAGE}
mv $PWD/smdistributed-modelparallel.sqsh "/fsx/<any-path-in-the-shared-filesystem>"

Enroot スカッシュファイルを使用してトレーニングを開始するには、次の例を使用して、recipes_collection/config.yaml ファイルを変更します。
```
container: /fsx/path/to/your/smdistributed-modelparallel.sqsh
```

トレーニングジョブを起動する

単一の Slurm コンピューティングノードでシーケンス長が 8192 の Llama 80 億パラメータモデルの PEFT ジョブを起動するには、起動スクリプト launcher_scripts/llama/run_hf_llama3_8b_seq8k_gpu_lora.sh を次のとおり設定します。

IMAGE: 環境設定セクションのコンテナ。
HF_MODEL_NAME_OR_PATH: レシピの hf_model_name_or_path パラメータで、事前トレーニング済みの重みの名前またはパスを定義します。
(オプション) 次の key-value ペアを設定することで、HuggingFace から事前トレーニング済みの重みが必要な場合は、HuggingFace トークンを指定できます。
```
recipes.model.hf_access_token=${HF_ACCESS_TOKEN}
```


#!/bin/bash
IMAGE="${YOUR_IMAGE}"
SAGEMAKER_TRAINING_LAUNCHER_DIR="${SAGEMAKER_TRAINING_LAUNCHER_DIR:-${PWD}}"

TRAIN_DIR="${YOUR_TRAIN_DIR}" # Location of training dataset
VAL_DIR="${YOUR_VAL_DIR}" # Location of validation dataset

# experiment output directory
EXP_DIR="${YOUR_EXP_DIR}"
HF_ACCESS_TOKEN="${YOUR_HF_TOKEN}"
HF_MODEL_NAME_OR_PATH="${YOUR_HF_MODEL_NAME_OR_PATH}"

# Add hf_model_name_or_path and turn off synthetic_data
HYDRA_FULL_ERROR=1 python3 ${SAGEMAKER_TRAINING_LAUNCHER_DIR}/main.py \
    recipes=fine-tuning/llama/hf_llama3_8b_seq8k_gpu_lora \
    base_results_dir=${SAGEMAKER_TRAINING_LAUNCHER_DIR}/results \
    recipes.run.name="hf_llama3_lora" \
    recipes.exp_manager.exp_dir="$EXP_DIR" \
    recipes.model.data.train_dir="$TRAIN_DIR" \
    recipes.model.data.val_dir="$VAL_DIR" \
    recipes.model.hf_model_name_or_path="$HF_MODEL_NAME_OR_PATH" \
    container="${IMAGE}" \
    +cluster.container_mounts.0="/fsx:/fsx" \
    recipes.model.hf_access_token="${HF_ACCESS_TOKEN}"

ランチャースクリプトで必要なパラメータをすべて設定したら、次のコマンドを使用してスクリプトを実行できます。


bash launcher_scripts/llama/run_hf_llama3_8b_seq8k_gpu_lora.sh

Slurm クラスターの設定に関する詳細は、「HyperPod Slurm でのトレーニングジョブの実行」を参照してください。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

Slurm クラスターを使用した DPO トレーニング

Kubernetes クラスターを使用した GPU 事前トレーニング