View a markdown version of this page

Fitur Kontainer Inferensi - Amazon Nova

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Fitur Kontainer Inferensi

Wadah SageMaker inferensi Amazon Nova menyertakan serangkaian fitur yang dapat Anda aktifkan untuk menyesuaikan perilaku model selama inferensi. Setiap fitur diperkenalkan dalam versi kontainer tertentu dan mungkin memerlukan variabel lingkungan, parameter permintaan, atau keduanya untuk mengaktifkan.

Halaman ini mencantumkan fitur yang tersedia di wadah inferensi, menjelaskan cara mengaktifkan masing-masing fitur, dan mengidentifikasi versi penampung tempat fitur tersebut diperkenalkan. Gunakan referensi ini untuk menentukan fitur mana yang tersedia untuk penerapan Anda dan cara mengonfigurasinya.

Fitur yang diaktifkan melalui variabel lingkungan diatur saat Anda membuat SageMaker model atau konfigurasi titik akhir. Sertakan mereka dalam Environment parameter panggilan CreateModelAPI. Fitur yang diaktifkan melalui parameter permintaan disetel per pemanggilan di badan permintaan.

catatan

Selalu gunakan gambar kontainer terbaru untuk mendapatkan akses ke semua fitur yang tersedia. SM-Inference-latestTag saat ini menunjuk kev1.4.

Ringkasan fitur

Tabel berikut memberikan referensi cepat dari semua fitur yang didukung dalam wadah SageMaker inferensi Amazon Nova.

Ringkasan fitur wadah inferensi
Fitur Cara mengaktifkan Default Model yang didukung Diperkenalkan di
Suhu default Variabel lingkungan 1.0 Semua model Amazon Nova v1.0
Top-p standar Variabel lingkungan 1.0 Semua model Amazon Nova v1.0
Top-k standar Variabel lingkungan -1(dinonaktifkan) Semua model Amazon Nova v1.0
Default max token baru Variabel lingkungan Panjang konteks maks model Semua model Amazon Nova v1.0
Logprobs default Variabel lingkungan Nonaktif Semua model Amazon Nova v1.0
Penguraian kode spekulatif Eagle3 Diaktifkan secara default Diaktifkan Semua model Amazon Nova v1.0
Jenis data cache KV Variabel lingkungan Sama seperti tipe data model Semua model Amazon Nova v1.3
Kuantisasi Variabel lingkungan Dinonaktifkan* Semua model Amazon Nova v1.3
Jumlah token spekulatif Variabel lingkungan 3 Semua model Amazon Nova v1.4
Penguraian sufiks Variabel lingkungan Nonaktif Semua model Amazon Nova v1.4
penting

* Kuantisasi FP8 diaktifkan secara otomatis dan tidak dapat dinonaktifkan untuk kombinasi model dan tipe instance berikut:

  • Amazon Nova Lite di ml.g6.12xlarge atau ml.g6.24xlarge

  • Nova 2 Lite aktif ml.g6.48xlarge

Untuk konfigurasi ini, Anda tidak perlu mengaturQUANTIZATION_DTYPE. Lihat Kuantisasi untuk detail.

Suhu default

Menetapkan suhu pengambilan sampel default untuk semua permintaan inferensi yang dikirim ke titik akhir. Suhu mengontrol seberapa acak atau dapat diprediksi output model. Nilai 0 membuat model selalu memilih kata berikutnya yang paling mungkin, menghasilkan output yang konsisten dan berulang. Nilai yang lebih tinggi (hingga2) membuat model lebih bersedia untuk memilih kata-kata yang lebih kecil kemungkinannya, menghasilkan respons yang lebih kreatif dan bervariasi.

Kapan menggunakan: Turunkan suhu (misalnya, 0.1 ke0.3) untuk tugas-tugas yang membutuhkan jawaban faktual dan konsisten seperti klasifikasi atau ekstraksi data. Angkat (misalnya, 0.7 ke1.0) untuk tugas-tugas kreatif seperti menulis cerita atau brainstorming. Temperature bekerja sama dengan top-p dan top-k — ketiganya mengontrol cara model memilih token, dan Anda dapat menggabungkannya untuk menyempurnakan perilaku keluaran.

Diperkenalkan di

v1.0

Model yang didukung

Semua model Amazon Nova

Cara mengaktifkan

Atur variabel DEFAULT_TEMPERATURE lingkungan saat membuat SageMaker model.

Nilai default

1.0

Nilai valid

Mengapung di antara 0 dan 2 (inklusif)

Variabel lingkungan

"Environment": { "DEFAULT_TEMPERATURE": "0.7" }
catatan

Anda dapat mengganti default ini berdasarkan per-permintaan dengan menyertakan temperature parameter dalam badan permintaan.

Top-p standar

Menetapkan nilai top-p default untuk semua permintaan inferensi. Top-p mengontrol keragaman keluaran dengan membatasi pilihan model ke subset dari kata-kata yang paling mungkin. Secara khusus, model mengurutkan semua kemungkinan kata berikutnya berdasarkan probabilitas dan hanya mempertimbangkan kelompok terkecil yang probabilitas gabungannya mencapai nilai top-p. Misalnya, top-p 0.9 berarti model hanya mempertimbangkan kata-kata yang bersama-sama menyumbang 90% dari probabilitas, mengabaikan opsi yang tidak mungkin tersisa.

Kapan menggunakan: Gunakan nilai top-p yang lebih rendah (misalnya,0.5) untuk membuat model tetap berpegang pada kata-kata percaya diri tinggi, menghasilkan output yang lebih terfokus. Gunakan nilai yang lebih tinggi (misalnya,0.95) untuk memungkinkan lebih banyak variasi. Top-p sering digunakan sebagai alternatif suhu — keduanya mengontrol keragaman keluaran, tetapi top-p beradaptasi secara dinamis berdasarkan kepercayaan model pada setiap langkah. Anda dapat menggunakan keduanya bersama-sama, dalam hal ini model menerapkan kendala mana pun yang lebih ketat di setiap langkah.

Diperkenalkan di

v1.0

Model yang didukung

Semua model Amazon Nova

Cara mengaktifkan

Atur variabel DEFAULT_TOP_P lingkungan saat membuat SageMaker model.

Nilai default

1.0

Nilai valid

Mengapung di antara 1e-10 dan 1 (inklusif)

Variabel lingkungan

"Environment": { "DEFAULT_TOP_P": "0.9" }
catatan

Anda dapat mengganti default ini berdasarkan per-permintaan dengan menyertakan top_p parameter dalam badan permintaan.

Top-k standar

Menetapkan nilai top-k default untuk semua permintaan inferensi. Top-k membatasi pilihan model ke jumlah tetap dari kata-kata berikutnya yang paling mungkin. Misalnya, top-k 50 berarti model hanya mempertimbangkan 50 kata yang paling mungkin di setiap langkah, terlepas dari probabilitas masing-masing. Nilai -1 menonaktifkan batas ini, memungkinkan model untuk mempertimbangkan semua kata yang mungkin.

Kapan menggunakan: Gunakan top-k saat Anda menginginkan batasan keras pada jumlah pilihan kata yang dipertimbangkan model. Nilai yang lebih rendah (misalnya,10) menghasilkan output yang lebih dapat diprediksi, sementara nilai yang lebih tinggi memungkinkan lebih banyak variasi. Top-k dapat dikombinasikan dengan suhu dan top-p — ketika beberapa kontrol pengambilan sampel aktif, model menerapkan semuanya, menggunakan mana yang paling ketat pada setiap langkah.

Diperkenalkan di

v1.0

Model yang didukung

Semua model Amazon Nova

Cara mengaktifkan

Atur variabel DEFAULT_TOP_K lingkungan saat membuat SageMaker model.

Nilai default

-1(dinonaktifkan)

Nilai valid

Integer, -1 atau lebih besar. Gunakan -1 untuk mempertimbangkan semua token.

Variabel lingkungan

"Environment": { "DEFAULT_TOP_K": "50" }
catatan

Anda dapat mengganti default ini berdasarkan per-permintaan dengan menyertakan top_k parameter dalam badan permintaan.

Default max token baru

Menetapkan jumlah token maksimum default (kata atau potongan kata) yang dihasilkan model dalam respons. Nilai ini berlaku untuk semua permintaan kecuali diganti. Gunakan ini untuk mengontrol panjang respons dan mengelola biaya di seluruh titik akhir Anda.

Kapan menggunakan: Tetapkan ini saat Anda ingin menerapkan panjang respons maksimum yang konsisten di semua permintaan. Misalnya, atur untuk tugas jawaban singkat atau 256 2048 untuk pembuatan konten yang lebih lama. Nilai maksimum yang diizinkan bergantung pada CONTEXT_LENGTH konfigurasi untuk titik akhir Anda, karena token masukan ditambah token keluaran tidak dapat melebihi panjang konteks.

Diperkenalkan di

v1.0

Model yang didukung

Semua model Amazon Nova

Cara mengaktifkan

Atur variabel DEFAULT_MAX_NEW_TOKENS lingkungan saat membuat SageMaker model.

Nilai default

Panjang konteks maksimum model

Nilai valid

Integer, 1 atau lebih besar

Variabel lingkungan

"Environment": { "DEFAULT_MAX_NEW_TOKENS": "512" }
catatan

Anda dapat mengganti default ini berdasarkan per-permintaan dengan menyertakan max_completion_tokens parameter max_tokens or di badan permintaan. Nilai maksimum yang diizinkan tergantung pada CONTEXT_LENGTH konfigurasi untuk titik akhir Anda.

Logprobs default

Menetapkan jumlah default probabilitas log untuk kembali untuk setiap token yang dihasilkan. Probabilitas log adalah skor numerik yang menunjukkan seberapa yakin model dalam memilih setiap kata. Saat diaktifkan, respons menyertakan skor ini untuk setiap token keluaran, yang berguna untuk mengevaluasi kepercayaan model, membandingkan pilihan kata alternatif, dan perilaku pembuatan debugging.

Kapan menggunakan: Aktifkan logprobs saat Anda perlu menilai seberapa yakin model dalam outputnya — misalnya, untuk menandai respons kepercayaan rendah untuk tinjauan manusia, atau untuk membandingkan kemungkinan penyelesaian yang berbeda. Mengaktifkan logprob dapat sedikit meningkatkan latensi respons dan ukuran payload respons.

Diperkenalkan di

v1.0

Model yang didukung

Semua model Amazon Nova

Cara mengaktifkan

Atur variabel DEFAULT_LOGPROBS lingkungan saat membuat SageMaker model.

Nilai default

Nonaktif

Nilai valid

Integer antara 1 dan 20 (inklusif)

Variabel lingkungan

"Environment": { "DEFAULT_LOGPROBS": "5" }
catatan

Anda dapat mengganti default ini berdasarkan per-permintaan dengan menyertakan top_logprobs parameter logprobs dan dalam badan permintaan. Mengaktifkan logprob dapat sedikit meningkatkan latensi respons.

Penguraian kode spekulatif Eagle3

Eagle3 decoding spekulatif adalah teknik optimasi yang mempercepat pembuatan teks. Ia bekerja dengan menggunakan model draf yang lebih kecil dan lebih cepat untuk memprediksi beberapa token di depan, kemudian memeriksa prediksi tersebut terhadap model utama dalam satu langkah. Ketika prediksi benar, model secara efektif menghasilkan beberapa token dalam waktu yang biasanya diperlukan untuk menghasilkan satu. Model utama selalu memverifikasi token draf, sehingga output akhir identik dengan apa yang akan dihasilkan oleh model utama sendiri — hanya kecepatan yang berubah, bukan kualitasnya.

Kapan menggunakan: Penguraian kode spekulatif Eagle3 diaktifkan secara default dan menguntungkan sebagian besar beban kerja. Pertimbangkan untuk menonaktifkannya hanya jika Anda mengamati perilaku yang tidak terduga atau perlu mengisolasi karakteristik kinerja selama debugging.

Diperkenalkan di

v1.0. Support untuk kuantisasi FP8 dengan decoding spekulatif Eagle3 ditambahkan. v1.4

Model yang didukung

Semua model Amazon Nova

Cara mengaktifkan

Decoding spekulatif Eagle3 diaktifkan secara default tanpa konfigurasi yang diperlukan. Gunakan DISABLE_SPECULATIVE_DECODING untuk menonaktifkannya.

Nilai default

false(Penguraian kode spekulatif Eagle3 diaktifkan)

Nilai valid

true, false

Variabel lingkungan

Contoh berikut menonaktifkan decoding spekulatif Eagle3:

"Environment": { "DISABLE_SPECULATIVE_DECODING": "true" }

Jenis data cache KV

Menetapkan tipe data untuk cache kunci-nilai (KV) yang digunakan selama inferensi. Cache KV menyimpan memori model token sebelumnya dalam percakapan, memungkinkannya menghasilkan setiap token baru tanpa memproses ulang seluruh input. Untuk urutan panjang, cache ini dapat mengkonsumsi memori GPU yang signifikan. Mengatur cache KV ke tipe data presisi rendah seperti FP8 mengurangi penggunaan memori dan dapat meningkatkan throughput, dengan mengorbankan perbedaan numerik kecil dalam output.

Kapan menggunakan: Aktifkan cache FP8 KV saat Anda perlu mendukung panjang konteks yang lebih panjang atau konkurensi yang lebih tinggi pada instance Anda. Ini sangat berguna pada instance GPU dengan memori terbatas. Uji kasus penggunaan Anda untuk memverifikasi bahwa kualitas keluaran memenuhi persyaratan Anda, karena presisi yang lebih rendah dapat menghasilkan hasil yang sedikit berbeda.

Diperkenalkan di

v1.3

Model yang didukung

Semua model Amazon Nova

Cara mengaktifkan

Atur variabel KV_CACHE_DTYPE lingkungan saat membuat SageMaker model.

Nilai default

Sama seperti tipe data model

Nilai valid

fp8

Variabel lingkungan

"Environment": { "KV_CACHE_DTYPE": "fp8" }
catatan

Mengubah tipe data cache KV dapat menghasilkan output yang sedikit berbeda dibandingkan dengan presisi default. Uji kasus penggunaan Anda untuk memverifikasi bahwa kualitas output memenuhi persyaratan Anda.

Kuantisasi

Menetapkan tipe data kuantisasi untuk bobot model. Kuantisasi memampatkan bobot model ke dalam format presisi rendah (FP8 alih-alih presisi default yang lebih tinggi), yang mengurangi jumlah memori GPU yang dibutuhkan model. Ini dapat meningkatkan throughput inferensi dan memungkinkan model yang lebih besar sesuai dengan tipe instans yang lebih kecil, dengan dampak minimal pada kualitas output.

Kapan menggunakan: Gunakan kuantisasi FP8 saat Anda ingin mengurangi penggunaan memori untuk mendukung konkurensi yang lebih tinggi atau menyesuaikan model pada jenis instans yang lebih kecil. Perhatikan bahwa beberapa kombinasi model dan tipe instance memerlukan kuantisasi FP8 secara otomatis — lihat peringatan di bawah ini.

Diperkenalkan di

v1.3

Model yang didukung

Semua model Amazon Nova

Cara mengaktifkan

Atur variabel QUANTIZATION_DTYPE lingkungan saat membuat SageMaker model.

Nilai default

Dinonaktifkan. Namun, kuantisasi FP8 diaktifkan secara otomatis untuk kombinasi model dan tipe instance tertentu. Lihat catatan di bawah ini.

Nilai valid

fp8

Variabel lingkungan

"Environment": { "QUANTIZATION_DTYPE": "fp8" }
penting

Kombinasi model dan tipe instance berikut memerlukan kuantisasi FP8. Untuk konfigurasi ini, kuantisasi diaktifkan secara otomatis dan tidak dapat dinonaktifkan atau diganti:

  • Amazon Nova Lite di ml.g6.12xlarge atau ml.g6.24xlarge

  • Nova 2 Lite aktif ml.g6.48xlarge

Untuk semua konfigurasi lainnya, lihat Model dan instance yang didukung detailnya.

Jumlah token spekulatif

Mengontrol berapa banyak token yang diprediksi model draf ke depan selama setiap langkah decoding spekulatif Eagle3. Nilai yang lebih tinggi berarti model rancangan mencoba memprediksi lebih banyak token sekaligus, yang dapat meningkatkan throughput ketika prediksi akurat. Jika prediksi model draf sering menyimpang dari model primer, nilai yang lebih rendah mungkin lebih efisien.

Kapan menggunakan: Tingkatkan nilai ini saat beban kerja Anda menghasilkan pola keluaran yang dapat diprediksi (misalnya, data terstruktur atau teks templat) di mana model draf kemungkinan akan ditebak dengan benar. Kurangi untuk output kreatif atau sangat bervariasi di mana prediksi kurang dapat diandalkan.

Diperkenalkan di

v1.4

Model yang didukung

Semua model Amazon Nova

Cara mengaktifkan

Atur variabel NUM_SPECULATIVE_TOKENS lingkungan saat membuat SageMaker model.

Nilai default

3

Nilai valid

Integer antara 1 dan 10 (inklusif)

Variabel lingkungan

"Environment": { "NUM_SPECULATIVE_TOKENS": "5" }
catatan

Pengaturan ini hanya berlaku ketika decoding spekulatif Eagle3 diaktifkan (is). DISABLE_SPECULATIVE_DECODING false Ini tidak berpengaruh ketika decoding spekulatif dinonaktifkan atau saat menggunakan decoding akhiran.

Penguraian sufiks

Penguraian sufiks adalah metode alternatif untuk mempercepat pembuatan teks. Alih-alih menggunakan model draf terpisah (seperti yang dilakukan Eagle3), decoding akhiran mencari pola berulang dalam teks yang telah dihasilkan atau dalam prompt input, dan menggunakan kembali pola-pola tersebut untuk memprediksi token future. Pendekatan ini bekerja dengan baik ketika output cenderung berisi frasa berulang, format terstruktur, atau konten yang sangat mencerminkan input.

Kapan menggunakan: Gunakan decoding akhiran untuk tugas di mana output berisi pola berulang, seperti menghasilkan data terstruktur, mengisi template, atau meringkas konten yang menggunakan kembali frasa dari sumber. Untuk generasi tujuan umum di mana output sangat bervariasi, metode Eagle3 default biasanya memberikan throughput yang lebih baik.

Diperkenalkan di

v1.4

Model yang didukung

Semua model Amazon Nova

Cara mengaktifkan

Atur variabel SPECULATIVE_DECODING_METHOD lingkungan suffix saat membuat SageMaker model.

Nilai default

eagle3

Nilai valid

eagle3, suffix

Variabel lingkungan

"Environment": { "SPECULATIVE_DECODING_METHOD": "suffix" }
catatan

Untuk menggunakan akhiran decoding, DISABLE_SPECULATIVE_DECODING harus diatur ke false (default). Pengaturan DISABLE_SPECULATIVE_DECODING untuk true menonaktifkan semua metode decoding spekulatif, termasuk decoding akhiran.