Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Jalankan pelatihan terdistribusi dengan SageMaker pustaka paralelisme data terdistribusi
Perpustakaan paralelisme data SageMaker terdistribusi (SMDDP) memperluas kemampuan SageMaker pelatihan pada model pembelajaran mendalam dengan efisiensi penskalaan hampir linier dengan menyediakan implementasi operasi komunikasi kolektif yang dioptimalkan untuk infrastruktur. AWS
Saat melatih model pembelajaran mesin besar (MLM), seperti model bahasa besar (LLM) dan model difusi, pada kumpulan data pelatihan yang besar, praktisi ML menggunakan kelompok akselerator dan teknik pelatihan terdistribusi untuk mengurangi waktu melatih atau menyelesaikan kendala memori untuk model yang tidak dapat muat di setiap memori GPU. Praktisi ML sering memulai dengan beberapa akselerator pada satu instance dan kemudian menskalakan ke kelompok instance saat persyaratan beban kerja mereka meningkat. Ketika ukuran cluster meningkat, demikian juga overhead komunikasi antara beberapa node, yang menyebabkan penurunan kinerja komputasi secara keseluruhan.
Untuk mengatasi masalah overhead dan memori seperti itu, perpustakaan SMDDP menawarkan yang berikut ini.
-
Pustaka SMDDP mengoptimalkan pekerjaan pelatihan untuk infrastruktur AWS jaringan dan topologi instans Amazon SageMaker MLL.
-
Perpustakaan SMDDP meningkatkan komunikasi antar node dengan implementasi
AllReduce
dan operasi komunikasiAllGather
kolektif yang dioptimalkan untuk infrastruktur. AWS
Untuk mempelajari lebih lanjut tentang detail penawaran perpustakaan SMDDP, lanjutkan ke. Pengantar perpustakaan paralelisme data SageMaker terdistribusi
Untuk informasi lebih lanjut tentang pelatihan dengan strategi model-paralel yang ditawarkan oleh SageMaker, lihat juga. (Diarsipkan) perpustakaan SageMaker paralelisme model v1.x
Topik
- Pengantar perpustakaan paralelisme data SageMaker terdistribusi
- Kerangka kerja yang didukung, Wilayah AWS, dan tipe instance
- Pelatihan terdistribusi dengan perpustakaan paralelisme data SageMaker terdistribusi
- Contoh perpustakaan paralelisme SageMaker data Amazon
- Kiat konfigurasi untuk pustaka paralelisme data SageMaker terdistribusi
- FAQ perpustakaan paralelisme data SageMaker terdistribusi Amazon
- Pemecahan masalah untuk pelatihan terdistribusi di Amazon SageMaker
- SageMaker catatan rilis perpustakaan paralelisme data