Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Fitur Kontainer Inferensi
Wadah SageMaker inferensi Amazon Nova menyertakan serangkaian fitur yang dapat Anda aktifkan untuk menyesuaikan perilaku model selama inferensi. Setiap fitur diperkenalkan dalam versi kontainer tertentu dan mungkin memerlukan variabel lingkungan, parameter permintaan, atau keduanya untuk mengaktifkan.
Halaman ini mencantumkan fitur yang tersedia di wadah inferensi, menjelaskan cara mengaktifkan masing-masing fitur, dan mengidentifikasi versi penampung tempat fitur tersebut diperkenalkan. Gunakan referensi ini untuk menentukan fitur mana yang tersedia untuk penerapan Anda dan cara mengonfigurasinya.
Fitur yang diaktifkan melalui variabel lingkungan diatur saat Anda membuat SageMaker model atau konfigurasi titik akhir. Sertakan mereka dalam Environment parameter panggilan CreateModelAPI. Fitur yang diaktifkan melalui parameter permintaan disetel per pemanggilan di badan permintaan.
catatan
Selalu gunakan gambar kontainer terbaru untuk mendapatkan akses ke semua fitur yang tersedia. SM-Inference-latestTag saat ini menunjuk kev1.4.
Ringkasan fitur
Tabel berikut memberikan referensi cepat dari semua fitur yang didukung dalam wadah SageMaker inferensi Amazon Nova.
| Fitur | Cara mengaktifkan | Default | Model yang didukung | Diperkenalkan di |
|---|---|---|---|---|
| Suhu default | Variabel lingkungan | 1.0 |
Semua model Amazon Nova | v1.0 |
| Top-p standar | Variabel lingkungan | 1.0 |
Semua model Amazon Nova | v1.0 |
| Top-k standar | Variabel lingkungan | -1(dinonaktifkan) |
Semua model Amazon Nova | v1.0 |
| Default max token baru | Variabel lingkungan | Panjang konteks maks model | Semua model Amazon Nova | v1.0 |
| Logprobs default | Variabel lingkungan | Nonaktif | Semua model Amazon Nova | v1.0 |
| Penguraian kode spekulatif Eagle3 | Diaktifkan secara default | Diaktifkan | Semua model Amazon Nova | v1.0 |
| Jenis data cache KV | Variabel lingkungan | Sama seperti tipe data model | Semua model Amazon Nova | v1.3 |
| Kuantisasi | Variabel lingkungan | Dinonaktifkan* | Semua model Amazon Nova | v1.3 |
| Jumlah token spekulatif | Variabel lingkungan | 3 |
Semua model Amazon Nova | v1.4 |
| Penguraian sufiks | Variabel lingkungan | Nonaktif | Semua model Amazon Nova | v1.4 |
penting
* Kuantisasi FP8 diaktifkan secara otomatis dan tidak dapat dinonaktifkan untuk kombinasi model dan tipe instance berikut:
-
Amazon Nova Lite di
ml.g6.12xlargeatauml.g6.24xlarge -
Nova 2 Lite aktif
ml.g6.48xlarge
Untuk konfigurasi ini, Anda tidak perlu mengaturQUANTIZATION_DTYPE. Lihat Kuantisasi untuk detail.
Suhu default
Menetapkan suhu pengambilan sampel default untuk semua permintaan inferensi yang dikirim ke titik akhir. Suhu mengontrol seberapa acak atau dapat diprediksi output model. Nilai 0 membuat model selalu memilih kata berikutnya yang paling mungkin, menghasilkan output yang konsisten dan berulang. Nilai yang lebih tinggi (hingga2) membuat model lebih bersedia untuk memilih kata-kata yang lebih kecil kemungkinannya, menghasilkan respons yang lebih kreatif dan bervariasi.
Kapan menggunakan: Turunkan suhu (misalnya, 0.1 ke0.3) untuk tugas-tugas yang membutuhkan jawaban faktual dan konsisten seperti klasifikasi atau ekstraksi data. Angkat (misalnya, 0.7 ke1.0) untuk tugas-tugas kreatif seperti menulis cerita atau brainstorming. Temperature bekerja sama dengan top-p dan top-k — ketiganya mengontrol cara model memilih token, dan Anda dapat menggabungkannya untuk menyempurnakan perilaku keluaran.
- Diperkenalkan di
v1.0- Model yang didukung
Semua model Amazon Nova
- Cara mengaktifkan
-
Atur variabel
DEFAULT_TEMPERATURElingkungan saat membuat SageMaker model. - Nilai default
1.0- Nilai valid
Mengapung di antara
0dan2(inklusif)
Variabel lingkungan
"Environment": { "DEFAULT_TEMPERATURE": "0.7" }
catatan
Anda dapat mengganti default ini berdasarkan per-permintaan dengan menyertakan temperature parameter dalam badan permintaan.
Top-p standar
Menetapkan nilai top-p default untuk semua permintaan inferensi. Top-p mengontrol keragaman keluaran dengan membatasi pilihan model ke subset dari kata-kata yang paling mungkin. Secara khusus, model mengurutkan semua kemungkinan kata berikutnya berdasarkan probabilitas dan hanya mempertimbangkan kelompok terkecil yang probabilitas gabungannya mencapai nilai top-p. Misalnya, top-p 0.9 berarti model hanya mempertimbangkan kata-kata yang bersama-sama menyumbang 90% dari probabilitas, mengabaikan opsi yang tidak mungkin tersisa.
Kapan menggunakan: Gunakan nilai top-p yang lebih rendah (misalnya,0.5) untuk membuat model tetap berpegang pada kata-kata percaya diri tinggi, menghasilkan output yang lebih terfokus. Gunakan nilai yang lebih tinggi (misalnya,0.95) untuk memungkinkan lebih banyak variasi. Top-p sering digunakan sebagai alternatif suhu — keduanya mengontrol keragaman keluaran, tetapi top-p beradaptasi secara dinamis berdasarkan kepercayaan model pada setiap langkah. Anda dapat menggunakan keduanya bersama-sama, dalam hal ini model menerapkan kendala mana pun yang lebih ketat di setiap langkah.
- Diperkenalkan di
v1.0- Model yang didukung
Semua model Amazon Nova
- Cara mengaktifkan
-
Atur variabel
DEFAULT_TOP_Plingkungan saat membuat SageMaker model. - Nilai default
1.0- Nilai valid
Mengapung di antara
1e-10dan1(inklusif)
Variabel lingkungan
"Environment": { "DEFAULT_TOP_P": "0.9" }
catatan
Anda dapat mengganti default ini berdasarkan per-permintaan dengan menyertakan top_p parameter dalam badan permintaan.
Top-k standar
Menetapkan nilai top-k default untuk semua permintaan inferensi. Top-k membatasi pilihan model ke jumlah tetap dari kata-kata berikutnya yang paling mungkin. Misalnya, top-k 50 berarti model hanya mempertimbangkan 50 kata yang paling mungkin di setiap langkah, terlepas dari probabilitas masing-masing. Nilai -1 menonaktifkan batas ini, memungkinkan model untuk mempertimbangkan semua kata yang mungkin.
Kapan menggunakan: Gunakan top-k saat Anda menginginkan batasan keras pada jumlah pilihan kata yang dipertimbangkan model. Nilai yang lebih rendah (misalnya,10) menghasilkan output yang lebih dapat diprediksi, sementara nilai yang lebih tinggi memungkinkan lebih banyak variasi. Top-k dapat dikombinasikan dengan suhu dan top-p — ketika beberapa kontrol pengambilan sampel aktif, model menerapkan semuanya, menggunakan mana yang paling ketat pada setiap langkah.
- Diperkenalkan di
v1.0- Model yang didukung
Semua model Amazon Nova
- Cara mengaktifkan
-
Atur variabel
DEFAULT_TOP_Klingkungan saat membuat SageMaker model. - Nilai default
-1(dinonaktifkan)- Nilai valid
Integer,
-1atau lebih besar. Gunakan-1untuk mempertimbangkan semua token.
Variabel lingkungan
"Environment": { "DEFAULT_TOP_K": "50" }
catatan
Anda dapat mengganti default ini berdasarkan per-permintaan dengan menyertakan top_k parameter dalam badan permintaan.
Default max token baru
Menetapkan jumlah token maksimum default (kata atau potongan kata) yang dihasilkan model dalam respons. Nilai ini berlaku untuk semua permintaan kecuali diganti. Gunakan ini untuk mengontrol panjang respons dan mengelola biaya di seluruh titik akhir Anda.
Kapan menggunakan: Tetapkan ini saat Anda ingin menerapkan panjang respons maksimum yang konsisten di semua permintaan. Misalnya, atur untuk tugas jawaban singkat atau 256 2048 untuk pembuatan konten yang lebih lama. Nilai maksimum yang diizinkan bergantung pada CONTEXT_LENGTH konfigurasi untuk titik akhir Anda, karena token masukan ditambah token keluaran tidak dapat melebihi panjang konteks.
- Diperkenalkan di
v1.0- Model yang didukung
Semua model Amazon Nova
- Cara mengaktifkan
-
Atur variabel
DEFAULT_MAX_NEW_TOKENSlingkungan saat membuat SageMaker model. - Nilai default
Panjang konteks maksimum model
- Nilai valid
Integer,
1atau lebih besar
Variabel lingkungan
"Environment": { "DEFAULT_MAX_NEW_TOKENS": "512" }
catatan
Anda dapat mengganti default ini berdasarkan per-permintaan dengan menyertakan max_completion_tokens parameter max_tokens or di badan permintaan. Nilai maksimum yang diizinkan tergantung pada CONTEXT_LENGTH konfigurasi untuk titik akhir Anda.
Logprobs default
Menetapkan jumlah default probabilitas log untuk kembali untuk setiap token yang dihasilkan. Probabilitas log adalah skor numerik yang menunjukkan seberapa yakin model dalam memilih setiap kata. Saat diaktifkan, respons menyertakan skor ini untuk setiap token keluaran, yang berguna untuk mengevaluasi kepercayaan model, membandingkan pilihan kata alternatif, dan perilaku pembuatan debugging.
Kapan menggunakan: Aktifkan logprobs saat Anda perlu menilai seberapa yakin model dalam outputnya — misalnya, untuk menandai respons kepercayaan rendah untuk tinjauan manusia, atau untuk membandingkan kemungkinan penyelesaian yang berbeda. Mengaktifkan logprob dapat sedikit meningkatkan latensi respons dan ukuran payload respons.
- Diperkenalkan di
v1.0- Model yang didukung
Semua model Amazon Nova
- Cara mengaktifkan
-
Atur variabel
DEFAULT_LOGPROBSlingkungan saat membuat SageMaker model. - Nilai default
Nonaktif
- Nilai valid
Integer antara
1dan20(inklusif)
Variabel lingkungan
"Environment": { "DEFAULT_LOGPROBS": "5" }
catatan
Anda dapat mengganti default ini berdasarkan per-permintaan dengan menyertakan top_logprobs parameter logprobs dan dalam badan permintaan. Mengaktifkan logprob dapat sedikit meningkatkan latensi respons.
Penguraian kode spekulatif Eagle3
Eagle3 decoding spekulatif adalah teknik optimasi yang mempercepat pembuatan teks. Ia bekerja dengan menggunakan model draf yang lebih kecil dan lebih cepat untuk memprediksi beberapa token di depan, kemudian memeriksa prediksi tersebut terhadap model utama dalam satu langkah. Ketika prediksi benar, model secara efektif menghasilkan beberapa token dalam waktu yang biasanya diperlukan untuk menghasilkan satu. Model utama selalu memverifikasi token draf, sehingga output akhir identik dengan apa yang akan dihasilkan oleh model utama sendiri — hanya kecepatan yang berubah, bukan kualitasnya.
Kapan menggunakan: Penguraian kode spekulatif Eagle3 diaktifkan secara default dan menguntungkan sebagian besar beban kerja. Pertimbangkan untuk menonaktifkannya hanya jika Anda mengamati perilaku yang tidak terduga atau perlu mengisolasi karakteristik kinerja selama debugging.
- Diperkenalkan di
v1.0. Support untuk kuantisasi FP8 dengan decoding spekulatif Eagle3 ditambahkan.v1.4- Model yang didukung
Semua model Amazon Nova
- Cara mengaktifkan
-
Decoding spekulatif Eagle3 diaktifkan secara default tanpa konfigurasi yang diperlukan. Gunakan
DISABLE_SPECULATIVE_DECODINGuntuk menonaktifkannya. - Nilai default
false(Penguraian kode spekulatif Eagle3 diaktifkan)- Nilai valid
true,false
Variabel lingkungan
Contoh berikut menonaktifkan decoding spekulatif Eagle3:
"Environment": { "DISABLE_SPECULATIVE_DECODING": "true" }
Jenis data cache KV
Menetapkan tipe data untuk cache kunci-nilai (KV) yang digunakan selama inferensi. Cache KV menyimpan memori model token sebelumnya dalam percakapan, memungkinkannya menghasilkan setiap token baru tanpa memproses ulang seluruh input. Untuk urutan panjang, cache ini dapat mengkonsumsi memori GPU yang signifikan. Mengatur cache KV ke tipe data presisi rendah seperti FP8 mengurangi penggunaan memori dan dapat meningkatkan throughput, dengan mengorbankan perbedaan numerik kecil dalam output.
Kapan menggunakan: Aktifkan cache FP8 KV saat Anda perlu mendukung panjang konteks yang lebih panjang atau konkurensi yang lebih tinggi pada instance Anda. Ini sangat berguna pada instance GPU dengan memori terbatas. Uji kasus penggunaan Anda untuk memverifikasi bahwa kualitas keluaran memenuhi persyaratan Anda, karena presisi yang lebih rendah dapat menghasilkan hasil yang sedikit berbeda.
- Diperkenalkan di
v1.3- Model yang didukung
Semua model Amazon Nova
- Cara mengaktifkan
-
Atur variabel
KV_CACHE_DTYPElingkungan saat membuat SageMaker model. - Nilai default
Sama seperti tipe data model
- Nilai valid
fp8
Variabel lingkungan
"Environment": { "KV_CACHE_DTYPE": "fp8" }
catatan
Mengubah tipe data cache KV dapat menghasilkan output yang sedikit berbeda dibandingkan dengan presisi default. Uji kasus penggunaan Anda untuk memverifikasi bahwa kualitas output memenuhi persyaratan Anda.
Kuantisasi
Menetapkan tipe data kuantisasi untuk bobot model. Kuantisasi memampatkan bobot model ke dalam format presisi rendah (FP8 alih-alih presisi default yang lebih tinggi), yang mengurangi jumlah memori GPU yang dibutuhkan model. Ini dapat meningkatkan throughput inferensi dan memungkinkan model yang lebih besar sesuai dengan tipe instans yang lebih kecil, dengan dampak minimal pada kualitas output.
Kapan menggunakan: Gunakan kuantisasi FP8 saat Anda ingin mengurangi penggunaan memori untuk mendukung konkurensi yang lebih tinggi atau menyesuaikan model pada jenis instans yang lebih kecil. Perhatikan bahwa beberapa kombinasi model dan tipe instance memerlukan kuantisasi FP8 secara otomatis — lihat peringatan di bawah ini.
- Diperkenalkan di
v1.3- Model yang didukung
Semua model Amazon Nova
- Cara mengaktifkan
-
Atur variabel
QUANTIZATION_DTYPElingkungan saat membuat SageMaker model. - Nilai default
Dinonaktifkan. Namun, kuantisasi FP8 diaktifkan secara otomatis untuk kombinasi model dan tipe instance tertentu. Lihat catatan di bawah ini.
- Nilai valid
fp8
Variabel lingkungan
"Environment": { "QUANTIZATION_DTYPE": "fp8" }
penting
Kombinasi model dan tipe instance berikut memerlukan kuantisasi FP8. Untuk konfigurasi ini, kuantisasi diaktifkan secara otomatis dan tidak dapat dinonaktifkan atau diganti:
-
Amazon Nova Lite di
ml.g6.12xlargeatauml.g6.24xlarge -
Nova 2 Lite aktif
ml.g6.48xlarge
Untuk semua konfigurasi lainnya, lihat Model dan instance yang didukung detailnya.
Jumlah token spekulatif
Mengontrol berapa banyak token yang diprediksi model draf ke depan selama setiap langkah decoding spekulatif Eagle3. Nilai yang lebih tinggi berarti model rancangan mencoba memprediksi lebih banyak token sekaligus, yang dapat meningkatkan throughput ketika prediksi akurat. Jika prediksi model draf sering menyimpang dari model primer, nilai yang lebih rendah mungkin lebih efisien.
Kapan menggunakan: Tingkatkan nilai ini saat beban kerja Anda menghasilkan pola keluaran yang dapat diprediksi (misalnya, data terstruktur atau teks templat) di mana model draf kemungkinan akan ditebak dengan benar. Kurangi untuk output kreatif atau sangat bervariasi di mana prediksi kurang dapat diandalkan.
- Diperkenalkan di
v1.4- Model yang didukung
Semua model Amazon Nova
- Cara mengaktifkan
-
Atur variabel
NUM_SPECULATIVE_TOKENSlingkungan saat membuat SageMaker model. - Nilai default
3- Nilai valid
Integer antara
1dan10(inklusif)
Variabel lingkungan
"Environment": { "NUM_SPECULATIVE_TOKENS": "5" }
catatan
Pengaturan ini hanya berlaku ketika decoding spekulatif Eagle3 diaktifkan (is). DISABLE_SPECULATIVE_DECODING false Ini tidak berpengaruh ketika decoding spekulatif dinonaktifkan atau saat menggunakan decoding akhiran.
Penguraian sufiks
Penguraian sufiks adalah metode alternatif untuk mempercepat pembuatan teks. Alih-alih menggunakan model draf terpisah (seperti yang dilakukan Eagle3), decoding akhiran mencari pola berulang dalam teks yang telah dihasilkan atau dalam prompt input, dan menggunakan kembali pola-pola tersebut untuk memprediksi token future. Pendekatan ini bekerja dengan baik ketika output cenderung berisi frasa berulang, format terstruktur, atau konten yang sangat mencerminkan input.
Kapan menggunakan: Gunakan decoding akhiran untuk tugas di mana output berisi pola berulang, seperti menghasilkan data terstruktur, mengisi template, atau meringkas konten yang menggunakan kembali frasa dari sumber. Untuk generasi tujuan umum di mana output sangat bervariasi, metode Eagle3 default biasanya memberikan throughput yang lebih baik.
- Diperkenalkan di
v1.4- Model yang didukung
Semua model Amazon Nova
- Cara mengaktifkan
-
Atur variabel
SPECULATIVE_DECODING_METHODlingkungansuffixsaat membuat SageMaker model. - Nilai default
eagle3- Nilai valid
eagle3,suffix
Variabel lingkungan
"Environment": { "SPECULATIVE_DECODING_METHOD": "suffix" }
catatan
Untuk menggunakan akhiran decoding, DISABLE_SPECULATIVE_DECODING harus diatur ke false (default). Pengaturan DISABLE_SPECULATIVE_DECODING untuk true menonaktifkan semua metode decoding spekulatif, termasuk decoding akhiran.