Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Memodifikasi Skrip PyTorch Pelatihan
Di bagian ini, Anda mempelajari cara memodifikasi skrip PyTorch pelatihan untuk mengonfigurasi pustaka paralelisme SageMaker model untuk partisi otomatis dan partisi manual.
catatan
Untuk menemukan PyTorch versi mana yang didukung oleh perpustakaan, lihatKerangka Kerja yang Didukung dan Wilayah AWS.
Tip
Untuk contoh end-to-end buku catatan yang menunjukkan cara menggunakan skrip PyTorch pelatihan dengan pustaka paralelisme SageMaker model, lihat. Contoh perpustakaan paralelisme model Amazon SageMaker AI v1
Perhatikan bahwa partisi otomatis diaktifkan secara default. Kecuali ditentukan lain, skrip berikut menggunakan partisi otomatis.
Topik
Pemisahan otomatis dengan PyTorch
Perubahan skrip pelatihan berikut diperlukan untuk menjalankan skrip PyTorch pelatihan dengan pustaka SageMaker paralelisme model:
-
Impor dan inisialisasi perpustakaan dengan
smdistributed.modelparallel.torch.init()
. -
Bungkus model dengan
smdistributed.modelparallel.torch.DistributedModel
. Berhati-hatilah bahwa setiap tensor yang dikembalikan dari forward
metodenn.Module
objek yang mendasarinya akan disiarkan di seluruh perangkat model-paralel, menimbulkan overhead komunikasi, jadi tensor apa pun yang tidak diperlukan di luar metode panggilan (seperti aktivasi perantara) tidak boleh dikembalikan.catatan
Untuk FP16 pelatihan, Anda perlu menggunakan pengelola konteks smdistributed.modelparallel.torch.model_creation
() untuk membungkus model. Untuk informasi selengkapnya, lihat FP16 Pelatihan dengan Model Paralelisme. -
Bungkus pengoptimal dengan
smdistributed.modelparallel.torch.DistributedOptimizer
. catatan
Untuk FP16 pelatihan, Anda perlu mengatur penskalaan kerugian statis atau dinamis. Untuk informasi selengkapnya, lihat FP16 Pelatihan dengan Model Paralelisme.
-
Gunakan
DistributedModel
objek yang dikembalikan alih-alih model pengguna. -
Letakkan logika maju dan mundur dalam fungsi langkah dan hiasi dengan
smdistributed.modelparallel.torch.step
. -
Batasi setiap proses ke perangkatnya sendiri melalui
torch.cuda.set_device(smp.local_rank())
. -
Pindahkan tensor input ke GPU menggunakan
.to()
API sebelumsmp.step
panggilan (lihat contoh di bawah). -
Ganti
torch.Tensor.backward
dantorch.autograd.backward
denganDistributedModel.backward
. -
Lakukan pasca-pemrosesan pada output di seluruh microbatch menggunakan
StepOutput
metode seperti. reduce_mean
-
Ditetapkan
drop_last=True
diDataLoader
. Atau, lewati batch secara manual dalam loop pelatihan jika ukuran batch tidak habis dibagi dengan jumlah microbatch.
Untuk mempelajari lebih lanjut tentang API pustaka paralelisme model, lihat dokumentasi API
import torch import torch.nn as nn import torch.nn.functional as F import torch.optim as optim from torchnet.dataset import SplitDataset from torchvision import datasets import smdistributed.modelparallel.torch as smp class GroupedNet(nn.Module): def __init__(self): super(GroupedNet, self).__init__() # define layers def forward(self, x): # define forward pass and return model outputs # smdistributed: Define smp.step. Return any tensors needed outside. @smp.step def train_step(model, data, target): output = model(data) loss = F.nll_loss(output, target, reduction="mean") model.backward(loss) return output, loss def train(model, device, train_loader, optimizer): model.train() for batch_idx, (data, target) in enumerate(train_loader): # smdistributed: Move input tensors to the GPU ID used by the current process, # based on the set_device call. data, target = data.to(device), target.to(device) optimizer.zero_grad() # Return value, loss_mb is a StepOutput object _, loss_mb = train_step(model, data, target) # smdistributed: Average the loss across microbatches. loss = loss_mb.reduce_mean() optimizer.step() # smdistributed: initialize the backend smp.init() # smdistributed: Set the device to the GPU ID used by the current process. # Input tensors should be transferred to this device. torch.cuda.set_device(smp.local_rank()) device = torch.device("cuda") # smdistributed: Download only on a single process per instance. # When this is not present, the file is corrupted by multiple processes trying # to download and extract at the same time dataset = datasets.MNIST("../data", train=True, download=False) # smdistributed: Shard the dataset based on data-parallel ranks if smp.dp_size() > 1: partitions_dict = {f"{i}": 1 / smp.dp_size() for i in range(smp.dp_size())} dataset = SplitDataset(dataset, partitions=partitions_dict) dataset.select(f"{smp.dp_rank()}") # smdistributed: Set drop_last=True to ensure that batch size is always divisible # by the number of microbatches train_loader = torch.utils.data.DataLoader(dataset, batch_size=64, drop_last=True) model = GroupedNet() optimizer = optim.Adadelta(model.parameters(), lr=4.0) # smdistributed: Use the DistributedModel container to provide the model # to be partitioned across different ranks. For the rest of the script, # the returned DistributedModel object should be used in place of # the model provided for DistributedModel class instantiation. model = smp.DistributedModel(model) optimizer = smp.DistributedOptimizer(optimizer) train(model, device, train_loader, optimizer)
Pemisahan manual dengan PyTorch
Gunakan manajer smp.partition
smp.partition
konteks apa pun ditempatkan di. default_partition
default_partition
Kebutuhan yang harus auto_partition
disediakan jika diatur keFalse
. Modul yang dibuat dalam smp.partition
konteks tertentu ditempatkan pada partisi yang sesuai.
Untuk mempelajari lebih lanjut tentang API pustaka paralelisme model, lihat dokumentasi API
import torch import torch.nn as nn import torch.nn.functional as F import torch.optim as optim from torchnet.dataset import SplitDataset from torchvision import datasets import smdistributed.modelparallel.torch as smp class GroupedNet(nn.Module): def __init__(self): super(GroupedNet, self).__init__() with smp.partition(0): # define child modules on device 0 with smp.partition(1): # define child modules on device 1 def forward(self, x): # define forward pass and return model outputs # smdistributed: Define smp.step. Return any tensors needed outside. @smp.step def train_step(model, data, target): output = model(data) loss = F.nll_loss(output, target, reduction="mean") model.backward(loss) return output, loss def train(model, device, train_loader, optimizer): model.train() for batch_idx, (data, target) in enumerate(train_loader): # smdistributed: Move input tensors to the GPU ID used by the current process, # based on the set_device call. data, target = data.to(device), target.to(device) optimizer.zero_grad() # Return value, loss_mb is a StepOutput object _, loss_mb = train_step(model, data, target) # smdistributed: Average the loss across microbatches. loss = loss_mb.reduce_mean() optimizer.step() # smdistributed: initialize the backend smp.init() # smdistributed: Set the device to the GPU ID used by the current process. # Input tensors should be transferred to this device. torch.cuda.set_device(smp.local_rank()) device = torch.device("cuda") # smdistributed: Download only on a single process per instance. # When this is not present, the file is corrupted by multiple processes trying # to download and extract at the same time dataset = datasets.MNIST("../data", train=True, download=False) # smdistributed: Shard the dataset based on data-parallel ranks if smp.dp_size() > 1: partitions_dict = {f"{i}": 1 / smp.dp_size() for i in range(smp.dp_size())} dataset = SplitDataset(dataset, partitions=partitions_dict) dataset.select(f"{smp.dp_rank()}") # smdistributed: Set drop_last=True to ensure that batch size is always divisible # by the number of microbatches train_loader = torch.utils.data.DataLoader(dataset, batch_size=64, drop_last=True) model = GroupedNet() optimizer = optim.Adadelta(model.parameters(), lr=4.0) # smdistributed: Use the DistributedModel container to provide the model # to be partitioned across different ranks. For the rest of the script, # the returned DistributedModel object should be used in place of # the model provided for DistributedModel class instantiation. model = smp.DistributedModel(model) optimizer = smp.DistributedOptimizer(optimizer) train(model, device, train_loader, optimizer)
Pertimbangan
Saat Anda mengonfigurasi skrip PyTorch pelatihan menggunakan SageMaker pustaka paralelisme model, Anda harus mengetahui hal berikut:
-
Jika Anda menggunakan teknik optimasi yang bergantung pada norma gradien global, misalnya norma gradien dari seluruh model, seperti beberapa varian pengoptimal LAMB atau kliping gradien global, Anda perlu mengumpulkan semua norma di seluruh partisi model untuk kebenaran. Anda dapat menggunakan tipe data dasar komunikasi perpustakaan untuk melakukan hal ini.
-
Semua
torch.Tensor
argumen untuk metode penerusannn.Modules
dalam model Anda harus digunakan dalam perhitungan output modul. Dengan kata lain, perpustakaan tidak mendukung kasus di mana adatorch.Tensor
argumen ke modul di mana output modul tidak bergantung. -
Argumen untuk
smp.DistributedModel.backward()
panggilan harus bergantung pada semua output model. Dengan kata lain, tidak mungkin ada output darismp.DistributedModel.forward
panggilan yang tidak digunakan dalam perhitungan tensor yang dimasukkan ke dalam panggilan.smp.DistributedModel.backward
-
Jika ada
torch.cuda.synchronize()
panggilan dalam kode Anda, Anda mungkin perlu menelepontorch.cuda.set_device(smp.local_rank())
segera sebelum panggilan sinkronisasi. Jika tidak, konteks CUDA yang tidak perlu dapat dibuat di perangkat 0, yang akan menghabiskan memori dengan sia-sia. -
Karena perpustakaan ditempatkan
nn.Modules
pada perangkat yang berbeda, modul dalam model tidak boleh bergantung pada keadaan global apa pun yang dimodifikasi di dalamnyasmp.step
. Setiap keadaan yang tetap selama pelatihan, atau yang dimodifikasismp.step
di luar dengan cara yang terlihat oleh semua proses, diperbolehkan. -
Anda tidak perlu memindahkan model ke GPU (misalnya, menggunakan
model.to(device)
) saat menggunakan perpustakaan. Jika Anda mencoba memindahkan model ke GPU sebelum model dipartisi (sebelumsmp.step
panggilan pertama), panggilan pindah akan diabaikan. Pustaka secara otomatis memindahkan bagian model yang ditetapkan ke peringkat ke GPU-nya. Setelah pelatihan dengan perpustakaan dimulai, jangan pindahkan model ke CPU dan gunakan, karena tidak akan memiliki parameter yang benar untuk modul yang tidak ditetapkan ke partisi yang dipegang oleh proses. Jika Anda ingin melatih ulang model atau menggunakannya untuk inferensi tanpa perpustakaan setelah dilatih menggunakan pustaka paralelisme model, cara yang disarankan adalah menyimpan model lengkap menggunakan API pos pemeriksaan kami dan memuatnya kembali ke Modul biasa. PyTorch -
Jika Anda memiliki daftar modul sehingga output dari satu umpan ke yang lain, mengganti daftar itu dengan
nn.Sequential
dapat secara signifikan meningkatkan kinerja. -
Pembaruan bobot (
optimizer.step()
) perlu terjadi di luarsmp.step
karena saat itulah seluruh backward pass selesai dan gradien sudah siap. Saat menggunakan model hybrid dengan model dan paralelisme data, pada titik ini, AllReduce gradien juga dijamin selesai. -
Saat menggunakan library dalam kombinasi dengan paralelisme data, pastikan jumlah batch pada semua data parallel rank sama sehingga AllReduce tidak hang menunggu rank yang tidak berpartisipasi dalam langkah tersebut.
-
Jika Anda meluncurkan pekerjaan pelatihan menggunakan jenis instans ml.p4d (seperti ml.p4d.24xlarge), Anda harus menyetel variabel pemuat data.
num_workers=0
Misalnya, Anda dapat mendefinisikanDataLoader
sebagai berikut:dataloader = torch.utils.data.DataLoader( data, batch_size=batch_size, num_workers=0, pin_memory=True, drop_last=True, shuffle=shuffle, )
-
Input
smp.step
harus menjadi input model yang dihasilkan oleh.DataLoader
Ini karenasmp.step
secara internal membagi tensor input di sepanjang dimensi batch dan menyalurkannya. Ini berarti bahwa meneruskanDataLoader
dirinya kesmp.step
fungsi untuk menghasilkan input model di dalamnya tidak berfungsi.Misalnya, jika Anda mendefinisikan
DataLoader
sebagai berikut:train_loader = torch.utils.data.DataLoader(dataset, batch_size=64, drop_last=True)
Anda harus mengakses input model yang dihasilkan oleh
train_loader
dan meneruskannya ke fungsi yangsmp.step
didekorasi. Jangantrain_loader
langsung lolos kesmp.step
fungsi.def train(model, device, train_loader, optimizer): model.train() for batch_idx, (data, target) in enumerate(train_loader): ... _, loss_mb = train_step(model, data, target) ... @smp.step def train_step(model, data, target): ... return output, loss
-
Tensor input
smp.step
harus dipindahkan ke perangkat saat ini menggunakan.to()
API, yang harus dilakukan setelah panggilan.torch.cuda.set_device(local_rank())
Misalnya, Anda dapat mendefinisikan
train
fungsi sebagai berikut. Fungsi ini menambahkandata
dantarget
ke perangkat saat ini menggunakan.to()
API sebelum menggunakan tensor input tersebut untuk memanggil.train_step
def train(model, device, train_loader, optimizer): model.train() for batch_idx, (data, target) in enumerate(train_loader): # smdistributed: Move input tensors to the GPU ID used by the current process, # based on the set_device call. data, target = data.to(device), target.to(device) optimizer.zero_grad() # Return value, loss_mb is a StepOutput object _, loss_mb = train_step(model, data, target) # smdistributed: Average the loss across microbatches. loss = loss_mb.reduce_mean() optimizer.step()
Tensor input ke fungsi yang
smp.set
didekorasi ini telah dipindahkan ke perangkat saat ini dalamtrain
fungsi di atas. Model tidak perlu dipindahkan ke perangkat saat ini. Pustaka secara otomatis memindahkan bagian model yang ditetapkan ke peringkat ke GPU-nya.@smp.step def train_step(model, data, target): output = model(data) loss = F.nll_loss(output, target, reduction="mean") model.backward(loss) return output, loss
Fitur kerangka kerja yang tidak didukung
PyTorch Fitur-fitur berikut tidak didukung oleh pustaka SageMaker paralelisme model:
-
Jika Anda menggunakan paralelisme data dengan PyTorch DDP
asli, modul torch.nn.parallel.DistributedDataParallel
pembungkus tidak didukung oleh perpustakaan. Pustaka secara internal mengelola integrasi dengan PyTorch DDP, termasuk siaran parameter dan gradien. AllReduce Saat menggunakan perpustakaan, buffer modul hanya disiarkan sekali pada awal pelatihan. Jika model Anda memiliki buffer modul yang perlu disinkronkan di seluruh grup paralel data pada setiap langkah, Anda dapat melakukannya melalui torch.distributed
API, menggunakan grup proses yang dapat diperoleh melalui.smp.get_dp_process_group()
-
Untuk pelatihan presisi campuran,
apex.amp
modul tidak didukung. Cara yang disarankan untuk menggunakan perpustakaan dengan presisi campuran otomatis adalah dengan menggunakantorch.cuda.amp
, dengan pengecualian menggunakansmp.amp.GradScaler
alih-alih implementasi dalam obor. -
torch.jit.ScriptModules
atauScriptFunctions
tidak didukung olehsmp.DistributedModel
. -
apex
:FusedLayerNorm
,FusedAdam
,FusedLAMB
, danFusedNovoGrad
dariapex
tidak didukung. Anda dapat menggunakan implementasi perpustakaan ini melaluismp.optimizers
dansmp.nn
APIs sebagai gantinya.