HyperPod Slurm クラスター PEFT-Lora チュートリアル (GPU) - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

HyperPod Slurm クラスター PEFT-Lora チュートリアル (GPU)

次のチュートリアルでは、Slurm 環境を設定し、Llama の 80 億パラメータモデルでパラメータ効率の高い微調整 (PEFT) ジョブを開始します。

前提条件

環境のセットアップを開始する前に、以下を確認してください。

  • HyperPod GPU Slurm クラスターを設定する

    • HyperPod Slurm クラスターでは、Nvidia Enroot と Pyxis が有効になっている必要があります (これらはデフォルトで有効になっています)。

  • 共有ストレージの場所。クラスターノードからアクセスできる Amazon FSx ファイルシステムまたは NFS システムを使用できます。

  • 次のいずれかの形式のデータ。

    • JSON

    • JSONGZ (圧縮 JSON)

    • 矢印

  • (オプション) HuggingFace から事前にトレーニングされた重みが必要な場合、または Llama 3.2 モデルをトレーニングしている場合は、トレーニングを開始する前に HuggingFace トークンを取得する必要があります。トークンの取得の詳細については、「ユーザーアクセストークン」を参照してください。

HyperPod GPU Slurm 環境を設定する

Slurm クラスターでトレーニングジョブを開始するには、次の手順を実行します。

  • Slurm クラスターのヘッドノードに SSH 接続します。

  • ログインしたら、仮想環境を設定します。Python 3.9 以降を使用していることを確認してください。

    #set up a virtual environment python3 -m venv ${PWD}/venv source venv/bin/activate
  • SageMaker HyperPod レシピと SageMaker HyperPod アダプターリポジトリを共有ストレージの場所にクローンします。共有ストレージの場所は、クラスターノードからアクセスできる Amazon FSx ファイルシステムまたは NFS システムです。

    git clone https://github.com/aws/sagemaker-hyperpod-training-adapter-for-nemo.git git clone --recursive https://github.com/aws/sagemaker-hyperpod-recipes.git cd sagemaker-hyperpod-recipes pip3 install -r requirements.txt
  • Enroot を使用してスカッシュファイルを作成します。SMP コンテナの最新リリースを確認するには、「」を参照してくださいSageMaker モデル並列処理ライブラリのリリースノート。Enroot ファイルの使用の詳細については、「ビルド AWS最適化 Nemo-Launcher イメージ」を参照してください。

    REGION="<region>" IMAGE="658645717510.dkr.ecr.${REGION}.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121" aws ecr get-login-password --region ${REGION} | docker login --username AWS --password-stdin 658645717510.dkr.ecr.${REGION}.amazonaws.com enroot import -o $PWD/smdistributed-modelparallel.sqsh dockerd://${IMAGE} mv $PWD/smdistributed-modelparallel.sqsh "/fsx/<any-path-in-the-shared-filesystem>"
  • Enroot スカッシュファイルを使用してトレーニングを開始するには、次の例を使用してrecipes_collection/config.yamlファイルを変更します。

    container: /fsx/path/to/your/smdistributed-modelparallel.sqsh

トレーニングジョブを起動する

単一の Slurm コンピューティングノードでシーケンス長が 8192 の Llama 80 億パラメータモデルの PEFT ジョブを起動するには、起動スクリプト launcher_scripts/llama/run_hf_llama3_8b_seq8k_gpu_lora.shを次のように設定します。

  • IMAGE: 環境設定セクションのコンテナ。

  • HF_MODEL_NAME_OR_PATH: recipe の hf_model_name_or_path パラメータで、事前トレーニング済みの重みの名前またはパスを定義します。

  • (オプション) 次のキーと値のペアを設定することで、HuggingFace から事前トレーニング済みの重みが必要な場合はHuggingFace トークンを指定できます。

    recipes.model.hf_access_token=${HF_ACCESS_TOKEN}
#!/bin/bash IMAGE="${YOUR_IMAGE}" SAGEMAKER_TRAINING_LAUNCHER_DIR="${SAGEMAKER_TRAINING_LAUNCHER_DIR:-${PWD}}" TRAIN_DIR="${YOUR_TRAIN_DIR}" # Location of training dataset VAL_DIR="${YOUR_VAL_DIR}" # Location of validation dataset # experiment output directory EXP_DIR="${YOUR_EXP_DIR}" HF_ACCESS_TOKEN="${YOUR_HF_TOKEN}" HF_MODEL_NAME_OR_PATH="${YOUR_HF_MODEL_NAME_OR_PATH}" # Add hf_model_name_or_path and turn off synthetic_data HYDRA_FULL_ERROR=1 python3 ${SAGEMAKER_TRAINING_LAUNCHER_DIR}/main.py \ recipes=fine-tuning/llama/hf_llama3_8b_seq8k_gpu_lora \ base_results_dir=${SAGEMAKER_TRAINING_LAUNCHER_DIR}/results \ recipes.run.name="hf_llama3_lora" \ recipes.exp_manager.exp_dir="$EXP_DIR" \ recipes.model.data.train_dir="$TRAIN_DIR" \ recipes.model.data.val_dir="$VAL_DIR" \ recipes.model.hf_model_name_or_path="$HF_MODEL_NAME_OR_PATH" \ container="${IMAGE}" \ +cluster.container_mounts.0="/fsx:/fsx" \ recipes.model.hf_access_token="${HF_ACCESS_TOKEN}"

上記のスクリプトで必要なパラメータをすべて設定したら、トレーニングジョブを実行して開始できます。

bash launcher_scripts/llama/run_hf_llama3_8b_seq8k_gpu_lora.sh

Slurm クラスター設定の詳細については、「」を参照してくださいHyperPod Slurm でトレーニングジョブを実行する