Jalankan pelatihan terdistribusi pada cluster heterogen di Amazon AI SageMaker

Mode fokus

Jalankan pelatihan terdistribusi pada cluster heterogen di Amazon AI SageMaker - Amazon SageMaker AI

Melalui distribution argumen kelas estimator SageMaker AI, Anda dapat menetapkan grup instans tertentu untuk menjalankan pelatihan terdistribusi. Misalnya, asumsikan bahwa Anda memiliki dua grup instans berikut dan ingin menjalankan pelatihan multi-GPU pada salah satunya.


from sagemaker.instance_group import InstanceGroup

instance_group_1 = InstanceGroup("instance_group_1", "ml.c5.18xlarge", 1)
instance_group_2 = InstanceGroup("instance_group_2", "ml.p3dn.24xlarge", 2)

Anda dapat mengatur konfigurasi pelatihan terdistribusi untuk salah satu grup instance. Misalnya, contoh kode berikut menunjukkan cara menetapkan training_group_2 dengan dua ml.p3dn.24xlarge instance ke konfigurasi pelatihan terdistribusi.

catatan

Saat ini, hanya satu grup instance dari cluster heterogen yang dapat ditentukan ke konfigurasi distribusi.

Dengan MPI

anchor anchor


from sagemaker.pytorch import PyTorch

estimator = PyTorch(
    ...
    instance_groups=[instance_group_1, instance_group_2],
    distribution={
        "mpi": {
            "enabled": True, "processes_per_host": 8
        },
        "instance_groups": [instance_group_2]
    }
)

Dengan perpustakaan paralel data SageMaker AI

anchor anchor


from sagemaker.pytorch import PyTorch

estimator = PyTorch(
    ...
    instance_groups=[instance_group_1, instance_group_2],
    distribution={
        "smdistributed": {
            "dataparallel": {
                "enabled": True
            }
        }, 
        "instance_groups": [instance_group_2]
    }
)

catatan

Saat menggunakan library paralel data SageMaker AI, pastikan grup instance terdiri dari tipe instance yang didukung oleh library.

Untuk informasi selengkapnya tentang perpustakaan paralel data SageMaker AI, lihat Pelatihan Paralel Data SageMaker AI.

Dengan perpustakaan paralel model SageMaker AI

anchor anchor


from sagemaker.pytorch import PyTorch

estimator = PyTorch(
    ...
    instance_groups=[instance_group_1, instance_group_2],
    distribution={
        "smdistributed": {
            "modelparallel": {
                "enabled":True,
                "parameters": {
                    ...   # SageMaker AI model parallel parameters
                } 
            }
        }, 
        "instance_groups": [instance_group_2]
    }
)

Untuk informasi lebih lanjut tentang perpustakaan paralel model SageMaker AI, lihat Pelatihan Paralel Model SageMaker AI.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Konfigurasikan pekerjaan pelatihan dengan cluster heterogen di Amazon AI SageMaker

Ubah skrip latihan Anda untuk menetapkan grup instans

Pilih preferensi cookie Anda

Sesuaikan preferensi cookie

Penting

Kinerja

Fungsional

Iklan

Tidak dapat menyimpan preferensi cookie

Jalankan pelatihan terdistribusi pada cluster heterogen di Amazon AI SageMaker

catatan

catatan

Related resources

Apakah halaman ini membantu Anda?

Related resources

Topik berikutnya:

Topik sebelumnya:

Perlu bantuan?