

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Fitur Kontainer Inferensi
<a name="nova-sagemaker-inference-container-features"></a>

Wadah SageMaker inferensi Amazon Nova menyertakan serangkaian fitur yang dapat Anda aktifkan untuk menyesuaikan perilaku model selama inferensi. Setiap fitur diperkenalkan dalam versi kontainer tertentu dan mungkin memerlukan variabel lingkungan, parameter permintaan, atau keduanya untuk mengaktifkan.

Halaman ini mencantumkan fitur yang tersedia di wadah inferensi, menjelaskan cara mengaktifkan masing-masing fitur, dan mengidentifikasi versi penampung tempat fitur tersebut diperkenalkan. Gunakan referensi ini untuk menentukan fitur mana yang tersedia untuk penerapan Anda dan cara mengonfigurasinya.

Fitur yang diaktifkan melalui variabel lingkungan diatur saat Anda membuat SageMaker model atau konfigurasi titik akhir. Sertakan mereka dalam `Environment` parameter panggilan [CreateModel](https://docs.aws.amazon.com//sagemaker/latest/APIReference/API_CreateModel.html)API. Fitur yang diaktifkan melalui parameter permintaan disetel per pemanggilan di badan permintaan.

**catatan**  
Selalu gunakan gambar kontainer terbaru untuk mendapatkan akses ke semua fitur yang tersedia. `SM-Inference-latest`Tag saat ini menunjuk ke`v1.4`.

## Ringkasan fitur
<a name="nova-sagemaker-inference-container-features-summary"></a>

Tabel berikut memberikan referensi cepat dari semua fitur yang didukung dalam wadah SageMaker inferensi Amazon Nova.


**Ringkasan fitur wadah inferensi**  

| Fitur | Cara mengaktifkan | Default | Model yang didukung | Diperkenalkan di | 
| --- | --- | --- | --- | --- | 
| [Suhu default](#nova-sagemaker-inference-container-feature-default-temperature) | Variabel lingkungan | 1.0 | Semua model Amazon Nova | v1.0 | 
| [Top-p standar](#nova-sagemaker-inference-container-feature-default-top-p) | Variabel lingkungan | 1.0 | Semua model Amazon Nova | v1.0 | 
| [Top-k standar](#nova-sagemaker-inference-container-feature-default-top-k) | Variabel lingkungan | -1(dinonaktifkan) | Semua model Amazon Nova | v1.0 | 
| [Default max token baru](#nova-sagemaker-inference-container-feature-default-max-new-tokens) | Variabel lingkungan | Panjang konteks maks model | Semua model Amazon Nova | v1.0 | 
| [Logprobs default](#nova-sagemaker-inference-container-feature-default-logprobs) | Variabel lingkungan | Nonaktif | Semua model Amazon Nova | v1.0 | 
| [Penguraian kode spekulatif Eagle3](#nova-sagemaker-inference-container-feature-speculative-decoding) | Diaktifkan secara default | Diaktifkan | Semua model Amazon Nova | v1.0 | 
| [Jenis data cache KV](#nova-sagemaker-inference-container-feature-kv-cache-dtype) | Variabel lingkungan | Sama seperti tipe data model | Semua model Amazon Nova | v1.3 | 
| [Kuantisasi](#nova-sagemaker-inference-container-feature-quantization) | Variabel lingkungan | Dinonaktifkan\* | Semua model Amazon Nova | v1.3 | 
| [Jumlah token spekulatif](#nova-sagemaker-inference-container-feature-num-speculative-tokens) | Variabel lingkungan | 3 | Semua model Amazon Nova | v1.4 | 
| [Penguraian sufiks](#nova-sagemaker-inference-container-feature-suffix-decoding) | Variabel lingkungan | Nonaktif | Semua model Amazon Nova | v1.4 | 

**penting**  
\* Kuantisasi FP8 diaktifkan secara otomatis dan tidak dapat dinonaktifkan untuk kombinasi model dan tipe instance berikut:  
Amazon Nova Lite di `ml.g6.12xlarge` atau `ml.g6.24xlarge`
Nova 2 Lite aktif `ml.g6.48xlarge`
Untuk konfigurasi ini, Anda tidak perlu mengatur`QUANTIZATION_DTYPE`. Lihat [Kuantisasi](#nova-sagemaker-inference-container-feature-quantization) untuk detail.

## Suhu default
<a name="nova-sagemaker-inference-container-feature-default-temperature"></a>

Menetapkan suhu pengambilan sampel default untuk semua permintaan inferensi yang dikirim ke titik akhir. Suhu mengontrol seberapa acak atau dapat diprediksi output model. Nilai `0` membuat model selalu memilih kata berikutnya yang paling mungkin, menghasilkan output yang konsisten dan berulang. Nilai yang lebih tinggi (hingga`2`) membuat model lebih bersedia untuk memilih kata-kata yang lebih kecil kemungkinannya, menghasilkan respons yang lebih kreatif dan bervariasi.

**Kapan menggunakan:** Turunkan suhu (misalnya, `0.1` ke`0.3`) untuk tugas-tugas yang membutuhkan jawaban faktual dan konsisten seperti klasifikasi atau ekstraksi data. Angkat (misalnya, `0.7` ke`1.0`) untuk tugas-tugas kreatif seperti menulis cerita atau brainstorming. Temperature bekerja sama dengan top-p dan top-k — ketiganya mengontrol cara model memilih token, dan Anda dapat menggabungkannya untuk menyempurnakan perilaku keluaran.

Diperkenalkan di  
`v1.0`

Model yang didukung  
Semua model Amazon Nova

Cara mengaktifkan  
Atur variabel `DEFAULT_TEMPERATURE` lingkungan saat membuat SageMaker model.

Nilai default  
`1.0`

Nilai valid  
Mengapung di antara `0` dan `2` (inklusif)

**Variabel lingkungan**

```
"Environment": {
    "DEFAULT_TEMPERATURE": "0.7"
}
```

**catatan**  
Anda dapat mengganti default ini berdasarkan per-permintaan dengan menyertakan `temperature` parameter dalam badan permintaan.

## Top-p standar
<a name="nova-sagemaker-inference-container-feature-default-top-p"></a>

Menetapkan nilai top-p default untuk semua permintaan inferensi. Top-p mengontrol keragaman keluaran dengan membatasi pilihan model ke subset dari kata-kata yang paling mungkin. Secara khusus, model mengurutkan semua kemungkinan kata berikutnya berdasarkan probabilitas dan hanya mempertimbangkan kelompok terkecil yang probabilitas gabungannya mencapai nilai top-p. Misalnya, top-p `0.9` berarti model hanya mempertimbangkan kata-kata yang bersama-sama menyumbang 90% dari probabilitas, mengabaikan opsi yang tidak mungkin tersisa.

**Kapan menggunakan: Gunakan** nilai top-p yang lebih rendah (misalnya,`0.5`) untuk membuat model tetap berpegang pada kata-kata percaya diri tinggi, menghasilkan output yang lebih terfokus. Gunakan nilai yang lebih tinggi (misalnya,`0.95`) untuk memungkinkan lebih banyak variasi. Top-p sering digunakan sebagai alternatif suhu — keduanya mengontrol keragaman keluaran, tetapi top-p beradaptasi secara dinamis berdasarkan kepercayaan model pada setiap langkah. Anda dapat menggunakan keduanya bersama-sama, dalam hal ini model menerapkan kendala mana pun yang lebih ketat di setiap langkah.

Diperkenalkan di  
`v1.0`

Model yang didukung  
Semua model Amazon Nova

Cara mengaktifkan  
Atur variabel `DEFAULT_TOP_P` lingkungan saat membuat SageMaker model.

Nilai default  
`1.0`

Nilai valid  
Mengapung di antara `1e-10` dan `1` (inklusif)

**Variabel lingkungan**

```
"Environment": {
    "DEFAULT_TOP_P": "0.9"
}
```

**catatan**  
Anda dapat mengganti default ini berdasarkan per-permintaan dengan menyertakan `top_p` parameter dalam badan permintaan.

## Top-k standar
<a name="nova-sagemaker-inference-container-feature-default-top-k"></a>

Menetapkan nilai top-k default untuk semua permintaan inferensi. Top-k membatasi pilihan model ke jumlah tetap dari kata-kata berikutnya yang paling mungkin. Misalnya, top-k `50` berarti model hanya mempertimbangkan 50 kata yang paling mungkin di setiap langkah, terlepas dari probabilitas masing-masing. Nilai `-1` menonaktifkan batas ini, memungkinkan model untuk mempertimbangkan semua kata yang mungkin.

**Kapan menggunakan:** Gunakan top-k saat Anda menginginkan batasan keras pada jumlah pilihan kata yang dipertimbangkan model. Nilai yang lebih rendah (misalnya,`10`) menghasilkan output yang lebih dapat diprediksi, sementara nilai yang lebih tinggi memungkinkan lebih banyak variasi. Top-k dapat dikombinasikan dengan suhu dan top-p — ketika beberapa kontrol pengambilan sampel aktif, model menerapkan semuanya, menggunakan mana yang paling ketat pada setiap langkah.

Diperkenalkan di  
`v1.0`

Model yang didukung  
Semua model Amazon Nova

Cara mengaktifkan  
Atur variabel `DEFAULT_TOP_K` lingkungan saat membuat SageMaker model.

Nilai default  
`-1`(dinonaktifkan)

Nilai valid  
Integer, `-1` atau lebih besar. Gunakan `-1` untuk mempertimbangkan semua token.

**Variabel lingkungan**

```
"Environment": {
    "DEFAULT_TOP_K": "50"
}
```

**catatan**  
Anda dapat mengganti default ini berdasarkan per-permintaan dengan menyertakan `top_k` parameter dalam badan permintaan.

## Default max token baru
<a name="nova-sagemaker-inference-container-feature-default-max-new-tokens"></a>

Menetapkan jumlah token maksimum default (kata atau potongan kata) yang dihasilkan model dalam respons. Nilai ini berlaku untuk semua permintaan kecuali diganti. Gunakan ini untuk mengontrol panjang respons dan mengelola biaya di seluruh titik akhir Anda.

**Kapan menggunakan:** Tetapkan ini saat Anda ingin menerapkan panjang respons maksimum yang konsisten di semua permintaan. Misalnya, atur untuk tugas jawaban singkat atau `256` `2048` untuk pembuatan konten yang lebih lama. Nilai maksimum yang diizinkan bergantung pada `CONTEXT_LENGTH` konfigurasi untuk titik akhir Anda, karena token masukan ditambah token keluaran tidak dapat melebihi panjang konteks.

Diperkenalkan di  
`v1.0`

Model yang didukung  
Semua model Amazon Nova

Cara mengaktifkan  
Atur variabel `DEFAULT_MAX_NEW_TOKENS` lingkungan saat membuat SageMaker model.

Nilai default  
Panjang konteks maksimum model

Nilai valid  
Integer, `1` atau lebih besar

**Variabel lingkungan**

```
"Environment": {
    "DEFAULT_MAX_NEW_TOKENS": "512"
}
```

**catatan**  
Anda dapat mengganti default ini berdasarkan per-permintaan dengan menyertakan `max_completion_tokens` parameter `max_tokens` or di badan permintaan. Nilai maksimum yang diizinkan tergantung pada `CONTEXT_LENGTH` konfigurasi untuk titik akhir Anda.

## Logprobs default
<a name="nova-sagemaker-inference-container-feature-default-logprobs"></a>

Menetapkan jumlah default probabilitas log untuk kembali untuk setiap token yang dihasilkan. Probabilitas log adalah skor numerik yang menunjukkan seberapa yakin model dalam memilih setiap kata. Saat diaktifkan, respons menyertakan skor ini untuk setiap token keluaran, yang berguna untuk mengevaluasi kepercayaan model, membandingkan pilihan kata alternatif, dan perilaku pembuatan debugging.

**Kapan menggunakan:** Aktifkan logprobs saat Anda perlu menilai seberapa yakin model dalam outputnya — misalnya, untuk menandai respons kepercayaan rendah untuk tinjauan manusia, atau untuk membandingkan kemungkinan penyelesaian yang berbeda. Mengaktifkan logprob dapat sedikit meningkatkan latensi respons dan ukuran payload respons.

Diperkenalkan di  
`v1.0`

Model yang didukung  
Semua model Amazon Nova

Cara mengaktifkan  
Atur variabel `DEFAULT_LOGPROBS` lingkungan saat membuat SageMaker model.

Nilai default  
Nonaktif

Nilai valid  
Integer antara `1` dan `20` (inklusif)

**Variabel lingkungan**

```
"Environment": {
    "DEFAULT_LOGPROBS": "5"
}
```

**catatan**  
Anda dapat mengganti default ini berdasarkan per-permintaan dengan menyertakan `top_logprobs` parameter `logprobs` dan dalam badan permintaan. Mengaktifkan logprob dapat sedikit meningkatkan latensi respons.

## Penguraian kode spekulatif Eagle3
<a name="nova-sagemaker-inference-container-feature-speculative-decoding"></a>

Eagle3 decoding spekulatif adalah teknik optimasi yang mempercepat pembuatan teks. Ia bekerja dengan menggunakan model draf yang lebih kecil dan lebih cepat untuk memprediksi beberapa token di depan, kemudian memeriksa prediksi tersebut terhadap model utama dalam satu langkah. Ketika prediksi benar, model secara efektif menghasilkan beberapa token dalam waktu yang biasanya diperlukan untuk menghasilkan satu. Model utama selalu memverifikasi token draf, sehingga output akhir identik dengan apa yang akan dihasilkan oleh model utama sendiri — hanya kecepatan yang berubah, bukan kualitasnya.

**Kapan menggunakan: Penguraian** kode spekulatif Eagle3 diaktifkan secara default dan menguntungkan sebagian besar beban kerja. Pertimbangkan untuk menonaktifkannya hanya jika Anda mengamati perilaku yang tidak terduga atau perlu mengisolasi karakteristik kinerja selama debugging.

Diperkenalkan di  
`v1.0`. Support untuk kuantisasi FP8 dengan decoding spekulatif Eagle3 ditambahkan. `v1.4`

Model yang didukung  
Semua model Amazon Nova

Cara mengaktifkan  
Decoding spekulatif Eagle3 diaktifkan secara default tanpa konfigurasi yang diperlukan. Gunakan `DISABLE_SPECULATIVE_DECODING` untuk menonaktifkannya.

Nilai default  
`false`(Penguraian kode spekulatif Eagle3 diaktifkan)

Nilai valid  
`true`, `false`

**Variabel lingkungan**

Contoh berikut menonaktifkan decoding spekulatif Eagle3:

```
"Environment": {
    "DISABLE_SPECULATIVE_DECODING": "true"
}
```

## Jenis data cache KV
<a name="nova-sagemaker-inference-container-feature-kv-cache-dtype"></a>

Menetapkan tipe data untuk cache kunci-nilai (KV) yang digunakan selama inferensi. Cache KV menyimpan memori model token sebelumnya dalam percakapan, memungkinkannya menghasilkan setiap token baru tanpa memproses ulang seluruh input. Untuk urutan panjang, cache ini dapat mengkonsumsi memori GPU yang signifikan. Mengatur cache KV ke tipe data presisi rendah seperti FP8 mengurangi penggunaan memori dan dapat meningkatkan throughput, dengan mengorbankan perbedaan numerik kecil dalam output.

**Kapan menggunakan:** Aktifkan cache FP8 KV saat Anda perlu mendukung panjang konteks yang lebih panjang atau konkurensi yang lebih tinggi pada instance Anda. Ini sangat berguna pada instance GPU dengan memori terbatas. Uji kasus penggunaan Anda untuk memverifikasi bahwa kualitas keluaran memenuhi persyaratan Anda, karena presisi yang lebih rendah dapat menghasilkan hasil yang sedikit berbeda.

Diperkenalkan di  
`v1.3`

Model yang didukung  
Semua model Amazon Nova

Cara mengaktifkan  
Atur variabel `KV_CACHE_DTYPE` lingkungan saat membuat SageMaker model.

Nilai default  
Sama seperti tipe data model

Nilai valid  
`fp8`

**Variabel lingkungan**

```
"Environment": {
    "KV_CACHE_DTYPE": "fp8"
}
```

**catatan**  
Mengubah tipe data cache KV dapat menghasilkan output yang sedikit berbeda dibandingkan dengan presisi default. Uji kasus penggunaan Anda untuk memverifikasi bahwa kualitas output memenuhi persyaratan Anda.

## Kuantisasi
<a name="nova-sagemaker-inference-container-feature-quantization"></a>

Menetapkan tipe data kuantisasi untuk bobot model. Kuantisasi memampatkan bobot model ke dalam format presisi rendah (FP8 alih-alih presisi default yang lebih tinggi), yang mengurangi jumlah memori GPU yang dibutuhkan model. Ini dapat meningkatkan throughput inferensi dan memungkinkan model yang lebih besar sesuai dengan tipe instans yang lebih kecil, dengan dampak minimal pada kualitas output.

**Kapan menggunakan: Gunakan** kuantisasi FP8 saat Anda ingin mengurangi penggunaan memori untuk mendukung konkurensi yang lebih tinggi atau menyesuaikan model pada jenis instans yang lebih kecil. Perhatikan bahwa beberapa kombinasi model dan tipe instance memerlukan kuantisasi FP8 secara otomatis — lihat peringatan di bawah ini.

Diperkenalkan di  
`v1.3`

Model yang didukung  
Semua model Amazon Nova

Cara mengaktifkan  
Atur variabel `QUANTIZATION_DTYPE` lingkungan saat membuat SageMaker model.

Nilai default  
Dinonaktifkan. Namun, kuantisasi FP8 diaktifkan secara otomatis untuk kombinasi model dan tipe instance tertentu. Lihat catatan di bawah ini.

Nilai valid  
`fp8`

**Variabel lingkungan**

```
"Environment": {
    "QUANTIZATION_DTYPE": "fp8"
}
```

**penting**  
Kombinasi model dan tipe instance berikut memerlukan kuantisasi FP8. Untuk konfigurasi ini, kuantisasi diaktifkan secara otomatis dan tidak dapat dinonaktifkan atau diganti:  
Amazon Nova Lite di `ml.g6.12xlarge` atau `ml.g6.24xlarge`
Nova 2 Lite aktif `ml.g6.48xlarge`
Untuk semua konfigurasi lainnya, lihat [Model dan instance yang didukung](nova-model-sagemaker-inference.md#nova-sagemaker-inference-supported) detailnya.

## Jumlah token spekulatif
<a name="nova-sagemaker-inference-container-feature-num-speculative-tokens"></a>

Mengontrol berapa banyak token yang diprediksi model draf ke depan selama setiap langkah decoding spekulatif Eagle3. Nilai yang lebih tinggi berarti model rancangan mencoba memprediksi lebih banyak token sekaligus, yang dapat meningkatkan throughput ketika prediksi akurat. Jika prediksi model draf sering menyimpang dari model primer, nilai yang lebih rendah mungkin lebih efisien.

**Kapan menggunakan:** Tingkatkan nilai ini saat beban kerja Anda menghasilkan pola keluaran yang dapat diprediksi (misalnya, data terstruktur atau teks templat) di mana model draf kemungkinan akan ditebak dengan benar. Kurangi untuk output kreatif atau sangat bervariasi di mana prediksi kurang dapat diandalkan.

Diperkenalkan di  
`v1.4`

Model yang didukung  
Semua model Amazon Nova

Cara mengaktifkan  
Atur variabel `NUM_SPECULATIVE_TOKENS` lingkungan saat membuat SageMaker model.

Nilai default  
`3`

Nilai valid  
Integer antara `1` dan `10` (inklusif)

**Variabel lingkungan**

```
"Environment": {
    "NUM_SPECULATIVE_TOKENS": "5"
}
```

**catatan**  
Pengaturan ini hanya berlaku ketika decoding spekulatif Eagle3 diaktifkan (is). `DISABLE_SPECULATIVE_DECODING` `false` Ini tidak berpengaruh ketika decoding spekulatif dinonaktifkan atau saat menggunakan decoding akhiran.

## Penguraian sufiks
<a name="nova-sagemaker-inference-container-feature-suffix-decoding"></a>

Penguraian sufiks adalah metode alternatif untuk mempercepat pembuatan teks. Alih-alih menggunakan model draf terpisah (seperti yang dilakukan Eagle3), decoding akhiran mencari pola berulang dalam teks yang telah dihasilkan atau dalam prompt input, dan menggunakan kembali pola-pola tersebut untuk memprediksi token future. Pendekatan ini bekerja dengan baik ketika output cenderung berisi frasa berulang, format terstruktur, atau konten yang sangat mencerminkan input.

**Kapan menggunakan: Gunakan** decoding akhiran untuk tugas di mana output berisi pola berulang, seperti menghasilkan data terstruktur, mengisi template, atau meringkas konten yang menggunakan kembali frasa dari sumber. Untuk generasi tujuan umum di mana output sangat bervariasi, metode Eagle3 default biasanya memberikan throughput yang lebih baik.

Diperkenalkan di  
`v1.4`

Model yang didukung  
Semua model Amazon Nova

Cara mengaktifkan  
Atur variabel `SPECULATIVE_DECODING_METHOD` lingkungan `suffix` saat membuat SageMaker model.

Nilai default  
`eagle3`

Nilai valid  
`eagle3`, `suffix`

**Variabel lingkungan**

```
"Environment": {
    "SPECULATIVE_DECODING_METHOD": "suffix"
}
```

**catatan**  
Untuk menggunakan akhiran decoding, `DISABLE_SPECULATIVE_DECODING` harus diatur ke `false` (default). Pengaturan `DISABLE_SPECULATIVE_DECODING` untuk `true` menonaktifkan semua metode decoding spekulatif, termasuk decoding akhiran.