Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Model pondasi dan hiperparameter untuk fine-tuning
Model pondasi mahal secara komputasi dan dilatih pada korpus besar yang tidak berlabel. Menyesuaikan model pondasi yang telah dilatih sebelumnya adalah cara yang terjangkau untuk memanfaatkan kemampuan mereka yang luas sambil menyesuaikan model pada korpus kecil Anda sendiri. Fine-tuning adalah metode penyesuaian yang melibatkan pelatihan lebih lanjut dan mengubah bobot model Anda.
Fine-tuning mungkin berguna bagi Anda jika Anda membutuhkan:
-
untuk menyesuaikan model Anda dengan kebutuhan bisnis tertentu
-
model Anda untuk berhasil bekerja dengan bahasa khusus domain, seperti jargon industri, istilah teknis, atau kosakata khusus lainnya
-
peningkatan kinerja untuk tugas-tugas tertentu
-
tanggapan akurat, relatif, dan sadar konteks dalam aplikasi
-
tanggapan yang lebih faktual, kurang beracun, dan lebih selaras dengan persyaratan tertentu
Ada dua pendekatan utama yang dapat Anda ambil untuk fine-tuning tergantung pada kasus penggunaan Anda dan model pondasi yang dipilih.
-
Jika Anda tertarik untuk menyempurnakan model Anda pada data spesifik domain, lihat. Sempurnakan model bahasa besar (LLM) menggunakan adaptasi domain
-
Jika Anda tertarik dengan fine-tuning berbasis instruksi menggunakan contoh prompt dan respons, lihat. Sempurnakan model bahasa besar (LLM) menggunakan instruksi prompt
Model foundation tersedia untuk fine-tuning
Anda dapat menyempurnakan salah satu model JumpStart pondasi berikut:
-
Mekar 3B
-
Mekar 7B1
-
BloomZ 3B FP16
-
BloomZ 7B1 FP16
-
Kode Llama 13B
-
Kode Llama 13B Python
-
Kode Llama 34B
-
Kode Llama 34B Python
-
Kode Llama 70B
-
Kode Llama 70B Python
-
Kode Llama 7B
-
Kode Llama 7B Python
-
CyberAgentLM2-7B-Obrolan (-7B-Obrolan) CALM2
-
Elang 40B BF16
-
Instruksi Falcon 40B BF16
-
Elang 7B BF16
-
Instruksi Falcon 7B BF16
-
Dasar Flan-T5
-
Flan-T5 Besar
-
Flan-T5 Kecil
-
Flan-T5 XL
-
Flan-T5 XXL
-
Gemma 2B
-
Instruksi Gemma 2B
-
Gemma 7B
-
Instruksi Gemma 7B
-
GPT-2 XL
-
GPT-J 6B
-
GPT-Neo 1.3B
-
GPT-Neo 125M
-
GPT- NEO 2.7B
-
GPTInstruksi Cahaya 6B
-
Llama 2 13B
-
Llama 2 13B Obrolan
-
Llama 2 13B Neuron
-
Llama 2 70B
-
Llama 2 70B Obrolan
-
Llama 2 7B
-
Llama 2 7B Obrolan
-
Llama 2 7B Neuron
-
Mistral 7B
-
Mixtral 8x7B
-
Instruksi Mixtral 8x7B
-
RedPajama INCITEDasar 3B V1
-
RedPajama INCITEDasar 7B V1
-
RedPajama INCITEObrolan 3B V1
-
RedPajama INCITEObrolan 7B V1
-
RedPajama INCITEInstruksikan 3B V1
-
RedPajama INCITEInstruksikan 7B V1
-
Difusi Stabil 2.1
Hiperparameter fine-tuning yang umumnya didukung
Model pondasi yang berbeda mendukung hiperparameter yang berbeda saat menyempurnakan. Berikut ini adalah hyperparameter yang umumnya didukung yang dapat menyesuaikan model Anda lebih lanjut selama pelatihan:
Parameter Inferensi | Deskripsi |
---|---|
|
Jumlah lintasan yang diambil model melalui kumpulan data fine-tuning selama pelatihan. Harus bilangan bulat lebih besar dari 1. |
|
Tingkat di mana bobot model diperbarui setelah mengerjakan setiap batch contoh pelatihan fine-tuning. Harus float positif lebih besar dari 0. |
|
Apakah akan melatih instruksi-model atau tidak. Harus |
|
Ukuran batch per GPU inti atau CPU untuk pelatihan. Harus berupa bilangan bulat positif. |
|
Ukuran batch per GPU inti atau CPU untuk evaluasi. Harus berupa bilangan bulat positif. |
|
Untuk tujuan debugging atau pelatihan yang lebih cepat, potong jumlah contoh pelatihan ke nilai ini. Nilai -1 berarti bahwa model menggunakan semua sampel pelatihan. Harus berupa bilangan bulat positif atau -1. |
|
Untuk tujuan debugging atau pelatihan yang lebih cepat, potong jumlah contoh validasi ke nilai ini. Nilai -1 berarti bahwa model menggunakan semua sampel validasi. Harus berupa bilangan bulat positif atau -1. |
|
Total panjang urutan input maksimum setelah tokenisasi. Urutan yang lebih panjang dari ini akan terpotong. Jika -1, |
|
Jika tidak ada saluran validasi, rasio validasi kereta terpisah dari data pelatihan. Harus antara 0 dan 1. |
|
Jika data validasi tidak ada, ini memperbaiki pemisahan acak data pelatihan input ke data pelatihan dan validasi yang digunakan oleh model. Harus berupa bilangan bulat. |
|
Jumlah proses yang digunakan untuk pra-pemrosesan. Jika |
|
Nilai adaptasi peringkat rendah (LoRa) r, yang bertindak sebagai faktor penskalaan untuk pembaruan bobot. Harus berupa bilangan bulat positif. |
|
Nilai alfa adaptasi peringkat rendah (LoRa), yang bertindak sebagai faktor penskalaan untuk pembaruan bobot. Umumnya 2 sampai 4 kali ukuran |
|
Nilai putus sekolah untuk lapisan adaptasi peringkat rendah (LoRa) Harus berupa float positif antara 0 dan 1. |
|
Jika |
|
Jika |
Anda dapat menentukan nilai hyperparameter saat menyempurnakan model di Studio. Untuk informasi selengkapnya, lihat Sempurnakan model di Studio.
Anda juga dapat mengganti nilai hyperparameter default saat menyempurnakan model Anda menggunakan SageMaker Python SDK. Untuk informasi selengkapnya, lihat Sempurnakan model foundation yang tersedia untuk umum dengan kelasnya JumpStartEstimator.