Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Gunakan perpustakaan paralelisme SageMaker model v2
Di halaman ini, Anda akan mempelajari cara menggunakan pustaka paralelisme SageMaker model v2 APIs dan memulai menjalankan pekerjaan pelatihan PyTorch Fully Sharded Data Parallel (FSDP) di platform SageMaker Pelatihan atau di cluster. SageMaker HyperPod
Ada berbagai skenario untuk menjalankan pekerjaan PyTorch pelatihan dengan SMP v2.
-
Untuk SageMaker pelatihan, gunakan salah satu SageMaker Framework Container yang sudah dibuat sebelumnya untuk PyTorch v2.0.1 dan yang lebih baru, yang sudah dikemas sebelumnya dengan v2. SMP
-
Gunakan file biner SMP v2 untuk menyiapkan lingkungan Conda untuk menjalankan beban kerja pelatihan terdistribusi di cluster. SageMaker HyperPod
-
Perluas SageMaker Framework Container yang sudah dibuat sebelumnya untuk PyTorch v2.0.1 dan yang lebih baru untuk menginstal persyaratan fungsional tambahan apa pun untuk kasus penggunaan Anda. Untuk mempelajari cara memperluas wadah yang sudah dibuat sebelumnya, lihatPerluas Kontainer Pra-dibangun.
-
Anda juga dapat membawa wadah Docker Anda sendiri dan secara manual mengatur semua lingkungan SageMaker Pelatihan menggunakan toolkit SageMaker Pelatihan dan menginstal file biner SMP v2. Ini adalah opsi yang paling tidak direkomendasikan karena kompleksitas dependensi. Untuk mempelajari cara menjalankan container Docker Anda sendiri, lihat Mengadaptasi Wadah Pelatihan Anda Sendiri.
Panduan memulai ini mencakup dua skenario pertama.
Langkah 1: Sesuaikan skrip PyTorch FSDP pelatihan Anda
Untuk mengaktifkan dan mengkonfigurasi pustaka SMP v2, mulailah dengan mengimpor dan menambahkan torch.sagemaker.init()
modul di bagian atas skrip. Modul ini mengambil kamus SMP konfigurasi SMPParameter konfigurasi fitur inti v2 yang akan Anda persiapkanLangkah 2: Luncurkan pekerjaan pelatihan. Selain itu, untuk menggunakan berbagai fitur inti yang ditawarkan oleh SMP v2, Anda mungkin perlu membuat beberapa perubahan lagi untuk menyesuaikan skrip pelatihan Anda. Petunjuk lebih rinci tentang mengadaptasi skrip pelatihan Anda untuk menggunakan fitur inti SMP v2 disediakan diFitur inti dari perpustakaan paralelisme SageMaker model v2.
- SageMaker Training
-
Dalam skrip pelatihan Anda, tambahkan dua baris kode berikut, yang merupakan persyaratan minimal untuk memulai pelatihan dengan SMP v2. DiLangkah 2: Luncurkan pekerjaan pelatihan, Anda akan menyiapkan objek kelas SageMaker PyTorch
estimator dengan kamus SMP konfigurasi melalui distribution
argumen kelas estimator.
import torch.sagemaker as tsm
tsm.init()
- SageMaker HyperPod
-
Dalam skrip pelatihan Anda, tambahkan dua baris kode berikut. DiLangkah 2: Luncurkan pekerjaan pelatihan, Anda akan menyiapkan smp_config.json
file untuk menyiapkan SMP konfigurasi dalam JSON format, dan mengunggahnya ke penyimpanan atau sistem file yang dipetakan dengan cluster Anda SageMaker HyperPod . Kami menyarankan Anda menyimpan file konfigurasi di bawah direktori yang sama tempat Anda mengunggah skrip pelatihan Anda.
import torch.sagemaker as tsm
tsm.init("/dir_to_training_files/smp_config.json
")
Langkah 2: Luncurkan pekerjaan pelatihan
Pelajari cara mengonfigurasi opsi SMP distribusi untuk meluncurkan pekerjaan PyTorch FSDP pelatihan dengan fitur SMP inti.
- SageMaker Training
-
Saat Anda menyiapkan objek peluncur pekerjaan pelatihan dari kelas estimator PyTorch kerangka kerja di SageMaker PythonSDK, konfigurasikan SMPParameter konfigurasi fitur inti v2 melalui distribution
argumen sebagai berikut.
distribution
Konfigurasi untuk SMP v2 terintegrasi dalam SageMaker Python SDK mulai dari v2.200. Pastikan Anda menggunakan SageMaker Python SDK v2.200 atau yang lebih baru.
from sagemaker.pytorch import PyTorch
estimator = PyTorch(
framework_version=2.2.0
,
py_version="310
"
# image_uri="<smp-docker-image-uri>" # For using prior versions, specify the SMP image URI directly.
entry_point="your-training-script.py
", # Pass the training script you adapted with SMP from Step 1.
... # Configure other required and optional parameters
distribution={
"torch_distributed": { "enabled": True },
"smdistributed": {
"modelparallel": {
"enabled": True,
"parameters": {
"hybrid_shard_degree": Integer
,
"sm_activation_offloading": Boolean
,
"activation_loading_horizon": Integer
,
"fsdp_cache_flush_warnings": Boolean
,
"allow_empty_shards": Boolean
,
"tensor_parallel_degree": Integer
,
"expert_parallel_degree": Integer
,
"random_seed": Integer
}
}
}
}
)
Untuk menggunakan salah satu versi sebelumnya PyTorch atau SMP bukan yang terbaru, Anda perlu menentukan gambar SMP Docker secara langsung menggunakan image_uri
argumen alih-alih framework_version
dan py_version
pasangkan. Berikut ini adalah contoh dari
estimator = PyTorch(
...,
image_uri="658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121"
)
Untuk menemukan gambar SMP DockerURIs, lihatKerangka kerja yang didukung.
- SageMaker HyperPod
-
Sebelum Anda mulai, pastikan apakah prasyarat berikut terpenuhi.
-
Direktori FSx bersama Amazon mount (/fsx
) ke HyperPod klaster Anda.
-
Conda diinstal di direktori FSx bersama. Untuk mempelajari cara menginstal Conda, gunakan petunjuk di Instalasi di Linux di Panduan Pengguna Conda.
-
cuda11.8
atau cuda12.1
dipasang di kepala dan menghitung node HyperPod cluster Anda.
Jika semua prasyarat terpenuhi, lanjutkan ke instruksi berikut tentang meluncurkan beban kerja dengan SMP v2 pada sebuah cluster. HyperPod
-
Siapkan smp_config.json
file yang berisi kamusSMPParameter konfigurasi fitur inti v2. Pastikan Anda mengunggah JSON file ini ke tempat Anda menyimpan skrip pelatihan Anda, atau jalur yang Anda tentukan ke torch.sagemaker.init()
modul di Langkah 1. Jika Anda telah melewati kamus konfigurasi ke torch.sagemaker.init()
modul dalam skrip pelatihan di Langkah 1, Anda dapat melewati langkah ini.
// smp_config.json
{
"hybrid_shard_degree": Integer
,
"sm_activation_offloading": Boolean
,
"activation_loading_horizon": Integer
,
"fsdp_cache_flush_warnings": Boolean
,
"allow_empty_shards": Boolean
,
"tensor_parallel_degree": Integer
,
"expert_parallel_degree": Integer
,
"random_seed": Integer
}
-
Unggah smp_config.json
file ke direktori di sistem file Anda. Jalur direktori harus cocok dengan jalur yang Anda tentukan di Langkah 1. Jika Anda telah melewati kamus konfigurasi ke torch.sagemaker.init()
modul dalam skrip pelatihan, Anda dapat melewati langkah ini.
-
Pada node komputasi cluster Anda, mulai sesi terminal dengan perintah berikut.
sudo su -l ubuntu
-
Buat lingkungan Conda pada node komputasi. Kode berikut adalah contoh skrip untuk membuat lingkungan Conda dan menginstalSMP,, SMDDPCUDA, dan dependensi lainnya.
# Run on compute nodes
SMP_CUDA_VER=<11.8 or 12.1>
source /fsx/<path_to_miniconda>
/miniconda3/bin/activate
export ENV_PATH=/fsx/<path to miniconda>/miniconda3/envs/<ENV_NAME>
conda create -p ${ENV_PATH} python=3.10
conda activate ${ENV_PATH}
# Verify aws-cli is installed: Expect something like "aws-cli/2.15.0*"
aws ‐‐version
# Install aws-cli if not already installed
# https://docs.aws.amazon.com/cli/latest/userguide/getting-started-install.html#cliv2-linux-install
# Install the SMP library
conda install pytorch="2.0.1=sm_py3.10_cuda
${SMP_CUDA_VER}*" packaging ‐‐override-channels \
-c https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-2.0.0-pt-2.0.1/2023-12-11/smp-v2/
\
-c pytorch -c numba/label/dev \
-c nvidia -c conda-forge
# Install dependencies of the script as below
python -m pip install packaging transformers==4.31.0 accelerate ninja tensorboard h5py datasets \
&& python -m pip install expecttest hypothesis \
&& python -m pip install "flash-attn>=2.0.4" ‐‐no-build-isolation
# Install the SMDDP wheel
SMDDP_WHL="smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl
" \
&& wget -q https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/
${SMDDP_WHL} \
&& pip install ‐‐force ${SMDDP_WHL} \
&& rm ${SMDDP_WHL}
# cuDNN installation for Transformer Engine installation for CUDA 11.8
# Please download from below link, you need to agree to terms
# https://developer.nvidia.com/downloads/compute/cudnn/secure/8.9.5/local_installers/11.x/cudnn-linux-x86_64-8.9.5.30_cuda11-archive.tar.xz
tar xf cudnn-linux-x86_64-8.9.5.30_cuda11-archive.tar.xz \
&& rm -rf /usr/local/cuda-$SMP_CUDA_VER/include/cudnn* /usr/local/cuda-$SMP_CUDA_VER/lib/cudnn* \
&& cp ./cudnn-linux-x86_64-8.9.5.30_cuda11-archive/include/* /usr/local/cuda-$SMP_CUDA_VER/include/ \
&& cp ./cudnn-linux-x86_64-8.9.5.30_cuda11-archive/lib/* /usr/local/cuda-$SMP_CUDA_VER/lib/ \
&& rm -rf cudnn-linux-x86_64-8.9.5.30_cuda11-archive.tar.xz \
&& rm -rf cudnn-linux-x86_64-8.9.5.30_cuda11-archive/
# Please download from below link, you need to agree to terms
# https://developer.download.nvidia.com/compute/cudnn/secure/8.9.7/local_installers/12.x/cudnn-linux-x86_64-8.9.7.29_cuda12-archive.tar.xz \
# cuDNN installation for TransformerEngine installation for cuda12.1
tar xf cudnn-linux-x86_64-8.9.7.29_cuda12-archive.tar.xz \
&& rm -rf /usr/local/cuda-$SMP_CUDA_VER/include/cudnn* /usr/local/cuda-$SMP_CUDA_VER/lib/cudnn* \
&& cp ./cudnn-linux-x86_64-8.9.7.29_cuda12-archive/include/* /usr/local/cuda-$SMP_CUDA_VER/include/ \
&& cp ./cudnn-linux-x86_64-8.9.7.29_cuda12-archive/lib/* /usr/local/cuda-$SMP_CUDA_VER/lib/ \
&& rm -rf cudnn-linux-x86_64-8.9.7.29_cuda12-archive.tar.xz \
&& rm -rf cudnn-linux-x86_64-8.9.7.29_cuda12-archive/
# TransformerEngine installation
export CUDA_HOME=/usr/local/cuda-$SMP_CUDA_VER
export CUDNN_PATH=/usr/local/cuda-$SMP_CUDA_VER/lib
export CUDNN_LIBRARY=/usr/local/cuda-$SMP_CUDA_VER/lib
export CUDNN_INCLUDE_DIR=/usr/local/cuda-$SMP_CUDA_VER/include
export PATH=/usr/local/cuda-$SMP_CUDA_VER/bin:$PATH
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-$SMP_CUDA_VER/lib
python -m pip install ‐‐no-build-isolation git+https://github.com/NVIDIA/TransformerEngine.git@v1.0
-
Jalankan pekerjaan pelatihan tes.
-
Di sistem file bersama (/fsx
), kloning GitHub repositori Pelatihan Terdistribusi Awsome, dan buka folder. 3.test_cases/11.modelparallel
git clone https://github.com/aws-samples/awsome-distributed-training/
cd awsome-distributed-training/3.test_cases/11.modelparallel
-
Kirim pekerjaan menggunakan sbatch
sebagai berikut.
conda activate <ENV_PATH>
sbatch -N 16 conda_launch.sh
Jika pengiriman pekerjaan berhasil, pesan output dari sbatch
perintah ini harus mirip Submitted batch job ABCDEF
dengan.
-
Periksa file log di direktori saat ini di bawahlogs/
.
tail -f ./logs/fsdp_smp_ABCDEF.out