Optimalisasi pelatihan terdistribusi - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Optimalisasi pelatihan terdistribusi

Sesuaikan hyperparameters untuk kasus penggunaan dan data Anda untuk mendapatkan efisiensi penskalaan terbaik. Dalam diskusi berikut, kami menyoroti beberapa variabel pelatihan yang paling berdampak dan memberikan referensi untuk state-of-the-art implementasi sehingga Anda dapat mempelajari lebih lanjut tentang opsi Anda. Selain itu, kami menyarankan Anda merujuk ke dokumentasi pelatihan terdistribusi kerangka kerja pilihan Anda.

Ukuran Batch

SageMaker Toolkit terdistribusi AI umumnya memungkinkan Anda untuk berlatih dalam batch yang lebih besar. Misalnya, jika model cocok dalam satu perangkat tetapi hanya dapat dilatih dengan ukuran batch kecil, menggunakan pelatihan paralel model atau pelatihan paralel data memungkinkan Anda bereksperimen dengan ukuran batch yang lebih besar.

Ketahuilah bahwa ukuran batch secara langsung memengaruhi akurasi model dengan mengontrol jumlah noise dalam pembaruan model pada setiap iterasi. Meningkatkan ukuran batch mengurangi jumlah noise dalam estimasi gradien, yang dapat bermanfaat ketika meningkat dari ukuran batch yang sangat kecil, tetapi dapat menghasilkan akurasi model yang terdegradasi karena ukuran batch meningkat ke nilai yang besar. 

Tip

Sesuaikan hyperparameters Anda untuk memastikan bahwa model Anda berlatih ke konvergensi yang memuaskan saat Anda meningkatkan ukuran batch.

Sejumlah teknik telah dikembangkan untuk mempertahankan konvergensi model yang baik ketika batch ditingkatkan.

Ukuran mini-batch

Dalam SGD, ukuran mini-batch mengukur jumlah noise yang ada dalam estimasi gradien. Batch mini kecil menghasilkan gradien batch mini yang sangat bising, yang tidak mewakili gradien sebenarnya di atas kumpulan data. Batch mini yang besar menghasilkan gradien batch mini yang mendekati gradien sebenarnya di atas kumpulan data dan berpotensi tidak cukup berisik — kemungkinan akan tetap terkunci dalam minimum yang tidak relevan.

Untuk mempelajari lebih lanjut tentang teknik ini, lihat makalah berikut: