

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# SageMaker Inferensi
<a name="nova-model-sagemaker-inference"></a>

Model Amazon Nova khusus sekarang tersedia pada SageMaker inferensi. Dengan Amazon Nova aktif SageMaker, Anda dapat mulai mendapatkan prediksi, atau kesimpulan, dari model Amazon Nova kustom Anda yang terlatih. SageMaker menyediakan berbagai pilihan infrastruktur dan opsi penerapan model ML untuk membantu memenuhi semua kebutuhan inferensi ML Anda. Dengan SageMaker inferensi, Anda dapat menskalakan penerapan model Anda, mengelola model secara lebih efektif dalam produksi, dan mengurangi beban operasional.

SageMaker memberi Anda berbagai opsi inferensi, seperti titik akhir waktu nyata untuk mendapatkan inferensi latensi rendah, dan titik akhir asinkron untuk kumpulan permintaan. Dengan memanfaatkan opsi inferensi yang sesuai untuk kasus penggunaan Anda, Anda dapat memastikan penerapan dan inferensi model yang efisien. Untuk informasi lebih lanjut tentang SageMaker inferensi, lihat [Menerapkan model untuk](https://docs.aws.amazon.com//sagemaker/latest/dg/deploy-model.html) inferensi.

**penting**  
Hanya model dan LoRA-merged model kustom peringkat penuh yang didukung pada SageMaker inferensi. Untuk model LoRa yang tidak digabungkan dan model dasar, gunakan Amazon Bedrock.

## Fitur
<a name="nova-sagemaker-inference-features"></a>

Fitur-fitur berikut tersedia untuk model Amazon Nova pada SageMaker inferensi:

**Kemampuan Model**
+ Pembuatan teks

**Penerapan dan Penskalaan**
+ Real-time titik akhir dengan pemilihan instance kustom
+ Auto Scaling — Secara otomatis menyesuaikan kapasitas berdasarkan pola lalu lintas untuk mengoptimalkan biaya dan pemanfaatan GPU. Untuk informasi selengkapnya, lihat [Menskalakan SageMaker Model Amazon secara otomatis](https://docs.aws.amazon.com//sagemaker/latest/dg/endpoint-auto-scaling.html).
+ Dukungan API streaming untuk pembuatan token waktu nyata

**Pemantauan dan Optimalisasi**
+  CloudWatch Integrasi Amazon untuk pemantauan dan peringatan
+ Optimalisasi Zone-aware latensi ketersediaan melalui konfigurasi VPC

**Alat Pengembangan**
+ AWS CLI dukungan - Untuk informasi selengkapnya, lihat [Referensi Perintah AWS CLI](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/) untuk. SageMaker
+  Integrasi notebook melalui dukungan SDK

## Model dan instance yang didukung
<a name="nova-sagemaker-inference-supported"></a>

Saat membuat titik akhir SageMaker inferensi, Anda dapat mengatur dua variabel lingkungan untuk mengonfigurasi penerapan: dan. `CONTEXT_LENGTH` `MAX_CONCURRENCY`
+ `CONTEXT_LENGTH`— Total panjang token maksimum (input\+output) per permintaan
+ `MAX_CONCURRENCY`— Jumlah maksimum permintaan bersamaan yang akan dilayani titik akhir

Tabel berikut mencantumkan model Amazon Nova yang didukung, jenis instans, dan konfigurasi yang didukung. Nilai MAX\_CONCURRENCY mewakili konkurensi maksimum yang didukung untuk setiap pengaturan CONTEXT\_LENGTH:


****  


- **Amazon Nova Mikro**
  - **Tipe Instans:** ml.g5.12xbesar / **Konfigurasi yang Didukung:** CONTEXT\_LENGTH: 4000, MAX\_CONCURRENCY: 12<br />CONTEXT\_LENGTH: 8000, MAX\_CONCURRENCY: 6 / **Kuantisasi FP8 Diperlukan:** Tidak
  - **Tipe Instans:** ml.g5.24xbesar / **Konfigurasi yang Didukung:** CONTEXT\_LENGTH: 8000, MAX\_CONCURRENCY: 8 / **Kuantisasi FP8 Diperlukan:** Tidak
  - **Tipe Instans:** ml.g6e.xlarge / **Konfigurasi yang Didukung:** CONTEXT\_LENGTH: 8000, MAX\_CONCURRENCY: 2 / **Kuantisasi FP8 Diperlukan:** Tidak
  - **Tipe Instans:** ml.g6e.2xlarge / **Konfigurasi yang Didukung:** CONTEXT\_LENGTH: 8000, MAX\_CONCURRENCY: 2 / **Kuantisasi FP8 Diperlukan:** Tidak
  - **Tipe Instans:** ml.g6e.4xlarge / **Konfigurasi yang Didukung:** CONTEXT\_LENGTH: 8000, MAX\_CONCURRENCY: 4 / **Kuantisasi FP8 Diperlukan:** Tidak
  - **Tipe Instans:** ml.g6.12xlarge / **Konfigurasi yang Didukung:** CONTEXT\_LENGTH: 4000, MAX\_CONCURRENCY: 12<br />CONTEXT\_LENGTH: 8000, MAX\_CONCURRENCY: 6 / **Kuantisasi FP8 Diperlukan:** Tidak
  - **Tipe Instans:** ml.g6.24xbesar / **Konfigurasi yang Didukung:** CONTEXT\_LENGTH: 8000, MAX\_CONCURRENCY: 8 / **Kuantisasi FP8 Diperlukan:** Tidak
  - **Tipe Instans:** ml.g6.48xlarge / **Konfigurasi yang Didukung:** CONTEXT\_LENGTH: 8000, MAX\_CONCURRENCY: 12 / **Kuantisasi FP8 Diperlukan:** Tidak
  - **Tipe Instans:** ml.p5.48xbesar / **Konfigurasi yang Didukung:** CONTEXT\_LENGTH: 16000, MAX\_CONCURRENCY: 128<br />CONTEXT\_LENGTH: 64000, MAX\_CONCURRENCY: 32<br />CONTEXT\_LENGTH: 128000, MAX\_CONCURRENCY: 8 / **Kuantisasi FP8 Diperlukan:** Tidak

- **Amazon Nova Lite**
  - **Tipe Instans:** ml.g6.12xlarge / **Konfigurasi yang Didukung:** CONTEXT\_LENGTH: 8000, MAX\_CONCURRENCY: 2 / **Kuantisasi FP8 Diperlukan:** Ya - Diaktifkan Secara Default
  - **Tipe Instans:** ml.g6.24xbesar / **Konfigurasi yang Didukung:** CONTEXT\_LENGTH: 8000, MAX\_CONCURRENCY: 4 / **Kuantisasi FP8 Diperlukan:** Ya - Diaktifkan Secara Default
  - **Tipe Instans:** ml.g6.48xlarge / **Konfigurasi yang Didukung:** CONTEXT\_LENGTH: 4000, MAX\_CONCURRENCY: 16<br />CONTEXT\_LENGTH: 8000, MAX\_CONCURRENCY: 8 / **Kuantisasi FP8 Diperlukan:** Tidak
  - **Tipe Instans:** ml.p5.48xbesar / **Konfigurasi yang Didukung:** CONTEXT\_LENGTH: 16000, MAX\_CONCURRENCY: 128<br />CONTEXT\_LENGTH: 60000, MAX\_CONCURRENCY: 8 / **Kuantisasi FP8 Diperlukan:** Tidak

- **Nova 2 Lite**
  - **Tipe Instans:** ml.g6.48xlarge / **Konfigurasi yang Didukung:** CONTEXT\_LENGTH: 8000, MAX\_CONCURRENCY: 8 / **Kuantisasi FP8 Diperlukan:** Ya - Diaktifkan Secara Default
  - **Tipe Instans:** ml.p5.48xbesar / **Konfigurasi yang Didukung:** CONTEXT\_LENGTH: 16000, MAX\_CONCURRENCY: 128<br />CONTEXT\_LENGTH: 64000, MAX\_CONCURRENCY: 32<br />CONTEXT\_LENGTH: 128000, MAX\_CONCURRENCY: 8<br />CONTEXT\_LENGTH: 256000, MAX\_CONCURRENCY: 2 / **Kuantisasi FP8 Diperlukan:** Tidak



**catatan**  
Untuk contoh di mana kuantisasi FP8 diperlukan, itu akan diaktifkan secara default.  
Nilai MAX\_CONCURRENCY yang ditampilkan adalah batas atas untuk setiap pengaturan CONTEXT\_LENGTH. Anda dapat menggunakan panjang konteks yang lebih rendah dengan konkurensi yang sama, tetapi melebihi nilai ini akan menyebabkan pembuatan SageMaker titik akhir gagal.  
Misalnya, di Amazon Nova Micro dengan ml.g5.12xlarge:  
`CONTEXT_LENGTH=2000`, `MAX_CONCURRENCY=12` → Berlaku
`CONTEXT_LENGTH=8000`, `MAX_CONCURRENCY=12` → Ditolak (batas konkurensi adalah 6 pada panjang konteks 8000)
`CONTEXT_LENGTH=8000`, `MAX_CONCURRENCY=4` → Berlaku
`CONTEXT_LENGTH=8000`, `MAX_CONCURRENCY=6` → Berlaku
`CONTEXT_LENGTH=10000`→ Ditolak (panjang konteks maks adalah 8000 pada contoh ini)

## Komponen inferensi
<a name="nova-sagemaker-inference-components"></a>

Anda dapat menerapkan model Amazon Nova menggunakan komponen SageMaker inferensi, yang memungkinkan Anda meng-host beberapa model pada satu titik akhir dan mengoptimalkan pemanfaatan sumber daya. Komponen inferensi memungkinkan Anda menentukan sumber daya komputasi (CPU, memori, GPU) yang diperlukan untuk setiap model, memungkinkan hosting multi-model yang efisien pada infrastruktur bersama.

Tabel berikut mencantumkan persyaratan sumber daya komputasi minimum untuk setiap model Amazon Nova saat menggunakan komponen inferensi:


****  

| Model | Inti CPU Min | Memori Min (MB) | Jumlah GPU Min | 
| --- | --- | --- | --- | 
| Amazon Nova Mikro | 15 | 25000 | 4 | 
| Amazon Nova Lite | 20 | 35000 | 4 | 
| Nova 2 Lite | 20 | 100000 | 4 | 

**catatan**  
`ComputeResourceRequirements`Nilai harus memenuhi atau melebihi persyaratan minimum yang tercantum dalam tabel di atas untuk model yang Anda gunakan. Menggunakan nilai di bawah minimum akan menyebabkan pembuatan komponen inferensi gagal.  
Anda dapat menerapkan beberapa komponen inferensi pada titik akhir yang sama, selama total persyaratan sumber daya tidak melebihi kapasitas instance.  
Jumlah komponen inferensi yang dapat Anda host pada satu titik akhir bergantung pada sumber daya jenis instans yang tersedia dan persyaratan minimum setiap model. Misalnya, pada `ml.p5.48xlarge` (8 GPU, 192 vCPU, \~ memori 1 TB):  
1 komponen inferensi Amazon Nova Micro (4 GPU, 15 inti CPU, 25000 MB) → Valid
2 komponen inferensi Amazon Nova Micro (total 8 GPU, 30 inti CPU, 50000 MB) → Valid (sesuai dengan kapasitas instans)
1 komponen inferensi Nova 2 Lite (4 GPU, 20 inti CPU, 100000 MB) → Valid
2 komponen inferensi Nova 2 Lite (total 8 GPU, 40 inti CPU, 200000 MB) → Valid
3 komponen inferensi Amazon Nova Micro (total 12 GPU) → Ditolak (melebihi 8 GPU yang tersedia)

## AWS Wilayah yang Didukung
<a name="nova-sagemaker-inference-regions"></a>

Tabel berikut mencantumkan AWS Wilayah tempat model Amazon Nova tersedia pada SageMaker inferensi:


****  

| Nama wilayah | Kode Wilayah | Ketersediaan | 
| --- | --- | --- | 
| US East (Northern Virginia) | us-east-1 | Available | 
| AS Barat (Oregon) | us-west-2 | Available | 

## Gambar Kontainer yang Didukung
<a name="nova-sagemaker-inference-container-images"></a>

Tabel berikut mencantumkan URI gambar kontainer untuk model Amazon Nova pada SageMaker inferensi berdasarkan wilayah. `SM-Inference-latest`Tag saat ini menunjuk ke`v1.4`.


****  

| Region | URI Gambar Kontainer | 
| --- | --- | 
| us-east-1 | 708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-inference-repo:SM-Inference-latest | 
| us-west-2 | 176779409107.dkr.ecr.us-west-2.amazonaws.com/nova-inference-repo:SM-Inference-latest | 

## Praktik Terbaik
<a name="nova-sagemaker-inference-best-practices"></a>

Untuk praktik terbaik dalam menerapkan dan mengelola model SageMaker, lihat [Praktik Terbaik untuk SageMaker](https://docs.aws.amazon.com//sagemaker/latest/dg/best-practices.html).

## Support
<a name="nova-sagemaker-inference-support"></a>

Untuk masalah dan dukungan dengan model Amazon Nova pada SageMaker inferensi, hubungi AWS Support melalui Konsol atau manajer AWS akun Anda.

**Topics**
+ [Fitur](#nova-sagemaker-inference-features)
+ [Model dan instance yang didukung](#nova-sagemaker-inference-supported)
+ [Komponen inferensi](#nova-sagemaker-inference-components)
+ [AWS Wilayah yang Didukung](#nova-sagemaker-inference-regions)
+ [Gambar Kontainer yang Didukung](#nova-sagemaker-inference-container-images)
+ [Praktik Terbaik](#nova-sagemaker-inference-best-practices)
+ [Support](#nova-sagemaker-inference-support)
+ [Memulai](nova-sagemaker-inference-getting-started.md)
+ [Fitur Kontainer Inferensi](nova-sagemaker-inference-container-features.md)
+ [Referensi API](nova-sagemaker-inference-api-reference.md)
+ [Evaluasi Model yang Dihosting pada SageMaker Inferensi](nova-eval-on-sagemaker-inference.md)
+ [Penyebaran Model Amazon Nova Forge di deteksi penyalahgunaan SageMaker Inferensi Amazon](nova-sagemaker-inference-abuse-detection.md)