Mempengaruhi generasi respons dengan parameter inferensi

Saat menjalankan inferensi model, Anda dapat menyesuaikan parameter inferensi untuk memengaruhi respons model. Parameter inferensi dapat mengubah kumpulan kemungkinan keluaran yang dipertimbangkan model selama pembuatan, atau mereka dapat membatasi respons akhir.

Nilai default parameter inferensi dan rentang tergantung pada model. Untuk mempelajari tentang parameter inferensi untuk model yang berbeda, lihatParameter permintaan inferensi dan bidang respons untuk model pondasi.

Kategori parameter berikut biasanya ditemukan di berbagai model:

Keacakan dan keragaman

Untuk urutan tertentu, model menentukan distribusi probabilitas opsi untuk token berikutnya dalam urutan. Untuk menghasilkan setiap token dalam output, model sampel dari distribusi ini. Keacakan dan keragaman mengacu pada jumlah variasi dalam respons model. Anda dapat mengontrol faktor-faktor ini dengan membatasi atau menyesuaikan distribusi. Model dasar biasanya mendukung parameter berikut untuk mengontrol keacakan dan keragaman dalam respons.

Temperatur — Mempengaruhi bentuk distribusi probabilitas untuk output yang diprediksi dan mempengaruhi kemungkinan model memilih output probabilitas yang lebih rendah.
- Pilih nilai yang lebih rendah untuk mempengaruhi model untuk memilih output probabilitas yang lebih tinggi.
- Pilih nilai yang lebih tinggi untuk mempengaruhi model untuk memilih output probabilitas yang lebih rendah.
Dalam istilah teknis, suhu memodulasi fungsi massa probabilitas untuk token berikutnya. Suhu yang lebih rendah meningkatkan fungsi dan mengarah ke respons yang lebih deterministik, dan suhu yang lebih tinggi meratakan fungsi dan mengarah ke respons yang lebih acak.
K Teratas — Jumlah kandidat yang paling mungkin dipertimbangkan model untuk token berikutnya.
- Pilih nilai yang lebih rendah untuk mengurangi ukuran kolam dan batasi opsi ke output yang lebih mungkin.
- Pilih nilai yang lebih tinggi untuk meningkatkan ukuran kolam dan biarkan model mempertimbangkan output yang lebih kecil kemungkinannya.
Misalnya, jika Anda memilih nilai 50 untuk Top K, model memilih dari 50 token yang paling mungkin yang berikutnya dalam urutan.
P Teratas — Persentase kandidat yang paling mungkin dipertimbangkan model untuk token berikutnya.
- Pilih nilai yang lebih rendah untuk mengurangi ukuran kolam dan batasi opsi ke output yang lebih mungkin.
- Pilih nilai yang lebih tinggi untuk meningkatkan ukuran kolam dan biarkan model mempertimbangkan output yang lebih kecil kemungkinannya.
Dalam istilah teknis, model menghitung distribusi probabilitas kumulatif untuk serangkaian tanggapan dan hanya mempertimbangkan P% teratas dari distribusi.

Misalnya, jika Anda memilih nilai 0,8 untuk Top P, model memilih dari 80% teratas dari distribusi probabilitas token yang mungkin berikutnya dalam urutan.

Tabel berikut merangkum efek dari parameter ini.

Parameter	Pengaruh nilai yang lebih rendah	Pengaruh nilai yang lebih tinggi
Temperatur	Meningkatkan kemungkinan token probabilitas lebih tinggi Kurangi kemungkinan token probabilitas lebih rendah	Meningkatkan kemungkinan token probabilitas lebih rendah Kurangi kemungkinan token probabilitas lebih tinggi
K Teratas	Hapus token dengan probabilitas lebih rendah	Izinkan token probabilitas lebih rendah
P Teratas	Hapus token dengan probabilitas lebih rendah	Izinkan token probabilitas lebih rendah

Sebagai contoh untuk memahami parameter ini, pertimbangkan contoh promptI hear the hoof beats of ". Katakanlah model menentukan tiga kata berikut untuk menjadi kandidat untuk token berikutnya. Model ini juga memberikan probabilitas untuk setiap kata.


{
    "horses": 0.7,
    "zebras": 0.2,
    "unicorns": 0.1
}

Jika Anda menetapkan suhu tinggi, distribusi probabilitas diratakan dan probabilitas menjadi kurang berbeda, yang akan meningkatkan kemungkinan memilih “unicorn” dan mengurangi kemungkinan memilih “kuda”.
Jika Anda menetapkan Top K sebagai 2, model hanya mempertimbangkan 2 kandidat teratas yang paling mungkin: “kuda” dan “zebra.”
Jika Anda menetapkan Top P sebagai 0,7, model hanya mempertimbangkan “kuda” karena itu adalah satu-satunya kandidat yang terletak di 70% teratas dari distribusi probabilitas. Jika Anda menetapkan Top P sebagai 0,9, model mempertimbangkan “kuda” dan “zebra” karena mereka berada di 90% teratas dari distribusi probabilitas.

Panjang

Model pondasi biasanya mendukung parameter yang membatasi panjang respons. Contoh parameter ini disediakan di bawah ini.

Panjang respons — Nilai yang tepat untuk menentukan jumlah minimum atau maksimum token untuk dikembalikan dalam respons yang dihasilkan.
Hukuman — Tentukan sejauh mana untuk menghukum output dalam tanggapan. Contohnya meliputi hal berikut.
- Panjang respon.
- Token berulang sebagai respons.
- Frekuensi token dalam respons.
- Jenis token dalam respons.
Hentikan urutan — Tentukan urutan karakter yang menghentikan model menghasilkan token lebih lanjut. Jika model menghasilkan urutan berhenti yang Anda tentukan, itu akan berhenti menghasilkan setelah urutan itu.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Bagaimana inferensi bekerja

Daerah dan model yang Didukung