Hyperparameters untuk mengoptimalkan proses pembelajaran model pembuatan teks Anda - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Hyperparameters untuk mengoptimalkan proses pembelajaran model pembuatan teks Anda

Anda dapat mengoptimalkan proses pembelajaran model dasar Anda dengan menyesuaikan kombinasi hiperparameter berikut. Parameter ini tersedia untuk semua model.

  • Hitungan Epoch: epochCount Hyperparameter menentukan berapa kali model melewati seluruh kumpulan data pelatihan. Ini mempengaruhi durasi pelatihan dan dapat mencegah overfitting ketika diatur dengan tepat. Sejumlah besar epoch dapat meningkatkan runtime keseluruhan pekerjaan fine-tuning. Kami merekomendasikan pengaturan besar MaxAutoMLJobRuntimeInSeconds di dalam TextGenerationJobConfig untuk menghindari pekerjaan fine-tuning berhenti sebelum waktunya. CompletionCriteria

  • Ukuran Batch: batchSize Hyperparameter mendefinisikan jumlah sampel data yang digunakan dalam setiap iterasi pelatihan. Hal ini dapat mempengaruhi kecepatan konvergensi dan penggunaan memori. Dengan ukuran batch yang besar, risiko kesalahan out of memory (OOM) meningkat, yang mungkin muncul sebagai kesalahan server internal di Autopilot. Untuk memeriksa kesalahan tersebut, periksa grup /aws/sagemaker/TrainingJobs log untuk pekerjaan pelatihan yang diluncurkan oleh pekerjaan Autopilot Anda. Anda dapat mengakses log masuk tersebut CloudWatch dari konsol AWS manajemen. Pilih Log, lalu pilih grup /aws/sagemaker/TrainingJobs log. Untuk memperbaiki kesalahan OOM, kurangi ukuran batch.

    Kami merekomendasikan memulai dengan ukuran batch 1, kemudian secara bertahap meningkatkannya sampai terjadi kesalahan di luar memori. Sebagai referensi, 10 zaman biasanya membutuhkan waktu hingga 72 jam untuk diselesaikan.

  • Tingkat Pembelajaran: learningRate Hyperparameter mengontrol ukuran langkah di mana parameter model diperbarui selama pelatihan. Ini menentukan seberapa cepat atau lambat parameter model diperbarui selama pelatihan. Tingkat pembelajaran yang tinggi berarti bahwa parameter diperbarui dengan ukuran langkah yang besar, yang dapat menyebabkan konvergensi lebih cepat tetapi juga dapat menyebabkan proses pengoptimalan melampaui solusi optimal dan menjadi tidak stabil. Tingkat pembelajaran yang rendah berarti bahwa parameter diperbarui dengan ukuran langkah kecil, yang dapat menyebabkan konvergensi yang lebih stabil tetapi dengan mengorbankan pembelajaran yang lebih lambat.

  • Learning Rate Warmup Steps: learningRateWarmupSteps Hyperparameter menentukan jumlah langkah pelatihan di mana tingkat pembelajaran meningkat secara bertahap sebelum mencapai target atau nilai maksimumnya. Ini membantu model bertemu lebih efektif dan menghindari masalah seperti divergensi atau konvergensi lambat yang dapat terjadi dengan tingkat pembelajaran yang awalnya tinggi.

Untuk mempelajari cara menyesuaikan hyperparameters untuk eksperimen fine-tuning Anda di Autopilot dan menemukan kemungkinan nilainya, lihat. Cara mengatur hyperparameters untuk mengoptimalkan proses pembelajaran suatu model