Meluncurkan pekerjaan pelatihan terdistribusi dengan SMDDP menggunakan SageMaker Python SDK - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Meluncurkan pekerjaan pelatihan terdistribusi dengan SMDDP menggunakan SageMaker Python SDK

Untuk menjalankan pekerjaan pelatihan terdistribusi dengan skrip adaptasi Anda dariMenyesuaikan skrip pelatihan Anda untuk menggunakan operasi SMDDP kolektif, gunakan kerangka kerja SageMaker Python SDK atau estimator generik dengan menentukan skrip pelatihan yang disiapkan sebagai skrip titik masuk dan konfigurasi pelatihan terdistribusi.

Halaman ini memandu Anda melalui cara menggunakan SageMaker Python SDK dalam dua cara.

  • Jika Anda ingin mencapai adopsi cepat dari pekerjaan pelatihan terdistribusi Anda di SageMaker, konfigurasikan kelas estimator SageMaker PyTorchatau TensorFlowkerangka kerja. Estimator framework mengambil skrip latihan Anda dan secara otomatis mencocokkan gambar URI kanan Deep Learning Containers () yang sudah dibuat sebelumnya PyTorch atau TensorFlow Deep Learning Containers (DLC), dengan nilai yang ditentukan pada parameter. framework_version

  • Jika Anda ingin memperluas salah satu kontainer yang sudah dibuat sebelumnya atau membuat wadah khusus untuk membuat lingkungan ML Anda sendiri SageMaker, gunakan Estimator kelas SageMaker generik dan tentukan gambar URI container Docker kustom yang dihosting di Amazon Elastic Container Registry (Amazon) Anda. ECR

Kumpulan data pelatihan Anda harus disimpan di Amazon S3 atau FSx Amazon untuk Lustre Wilayah AWS di mana Anda meluncurkan pekerjaan pelatihan Anda. Jika Anda menggunakan notebook Jupyter, Anda harus memiliki instance SageMaker notebook atau aplikasi SageMaker Studio Classic yang berjalan dalam hal yang sama. Wilayah AWS Untuk informasi selengkapnya tentang menyimpan data pelatihan Anda, lihat dokumentasi input SDK data SageMaker Python.

Tip

Kami menyarankan Anda menggunakan Amazon FSx untuk Lustre alih-alih Amazon S3 untuk meningkatkan kinerja pelatihan. Amazon FSx memiliki throughput yang lebih tinggi dan latensi yang lebih rendah daripada Amazon S3.

Tip

Untuk menjalankan pelatihan terdistribusi dengan benar pada jenis instans yang EFA diaktifkan, Anda harus mengaktifkan lalu lintas antar instans dengan menyiapkan grup keamanan Anda VPC untuk mengizinkan semua lalu lintas masuk dan keluar ke dan dari grup keamanan itu sendiri. Untuk mempelajari cara mengatur aturan grup keamanan, lihat Langkah 1: Mempersiapkan grup keamanan EFA yang diaktifkan di Panduan EC2 Pengguna Amazon.

Pilih salah satu topik berikut untuk instruksi tentang cara menjalankan pekerjaan pelatihan terdistribusi dari skrip pelatihan Anda. Setelah Anda meluncurkan pekerjaan pelatihan, Anda dapat memantau pemanfaatan sistem dan kinerja model menggunakan Amazon SageMaker Debugger atau Amazon CloudWatch.

Saat Anda mengikuti petunjuk dalam topik berikut untuk mempelajari lebih lanjut tentang detail teknis, kami juga menyarankan Anda mencoba Contoh perpustakaan paralelisme SageMaker data Amazon untuk memulai.