

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# SageMaker Inferenza
<a name="nova-model-sagemaker-inference"></a>

I modelli Amazon Nova personalizzati sono ora disponibili in SageMaker inferenza. Con Amazon Nova attivo SageMaker, puoi iniziare a ottenere previsioni o inferenze dai tuoi modelli Amazon Nova personalizzati addestrati. SageMaker offre un'ampia selezione di infrastrutture ML e opzioni di implementazione dei modelli per aiutarti a soddisfare tutte le tue esigenze di inferenza ML. Con SageMaker l'inferenza, è possibile scalare l'implementazione dei modelli, gestirli in modo più efficace in produzione e ridurre il carico operativo.

SageMaker offre diverse opzioni di inferenza, come endpoint in tempo reale per ottenere inferenze a bassa latenza ed endpoint asincroni per batch di richieste. Sfruttando l’opzione di inferenza appropriata per il tuo caso d’uso, puoi garantire un’implementazione e un’inferenza efficienti del modello. [Per ulteriori informazioni sull'inferenza, consulta Implementare modelli per l'inferenza. SageMaker ](https://docs.aws.amazon.com//sagemaker/latest/dg/deploy-model.html)

**Importante**  
Nell'inferenza sono supportati solo modelli e LoRA-merged modelli personalizzati completi. SageMaker Per i modelli LoRa e i modelli base non uniti, usa Amazon Bedrock.

## Funzionalità
<a name="nova-sagemaker-inference-features"></a>

Le seguenti funzionalità sono disponibili per i modelli Amazon Nova sull' SageMaker inferenza:

**Funzionalità del modello**
+ Generazione di testo

**Implementazione e scalabilità**
+ Real-time endpoint con selezione personalizzata dell'istanza
+ Auto Scaling: regola automaticamente la capacità in base ai modelli di traffico per ottimizzare i costi e l'utilizzo della GPU. Per ulteriori informazioni, consulta [Automately Scale Amazon SageMaker Models](https://docs.aws.amazon.com//sagemaker/latest/dg/endpoint-auto-scaling.html).
+ Supporto API di streaming per la generazione di token in tempo reale

**Monitoraggio e ottimizzazione**
+  CloudWatch Integrazione con Amazon per il monitoraggio e gli avvisi
+ Ottimizzazione Zone-aware della latenza di disponibilità tramite configurazione VPC

**Strumenti di sviluppo**
+ AWS CLI supporto: per ulteriori informazioni, consulta [AWS CLI Command Reference](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/) for. SageMaker
+  Integrazione dei notebook tramite supporto SDK

## Modelli e istanze supportati
<a name="nova-sagemaker-inference-supported"></a>

Quando crei gli endpoint di SageMaker inferenza, puoi impostare due variabili di ambiente per configurare la distribuzione: e. `CONTEXT_LENGTH` `MAX_CONCURRENCY`
+ `CONTEXT_LENGTH`— Lunghezza totale massima del token (ingresso\+output) per richiesta
+ `MAX_CONCURRENCY`— Numero massimo di richieste simultanee che l'endpoint servirà

La tabella seguente elenca i modelli, i tipi di istanza e le configurazioni supportate di Amazon Nova supportati. I valori MAX\_CONCURRENCY rappresentano la concorrenza massima supportata per ogni impostazione CONTEXT\_LENGTH:


****  


- **Amazon Nova Micro**
  - **Tipo di istanza:** ml.g5.12xlarge / **Configurazioni supportate:** LUNGHEZZA\_CONTESTO: 4000, CONCORRENZA MASSIMA: 12<br />LUNGHEZZA\_CONTESTO: 8000, CONCORRENZA MASSIMA: 6 / **Quantizzazione FP8 richiesta:** No
  - **Tipo di istanza:** ml.g5.24xlarge / **Configurazioni supportate:** LUNGHEZZA\_CONTESTO: 8000, CONCORRENZA MASSIMA: 8 / **Quantizzazione FP8 richiesta:** No
  - **Tipo di istanza:** ml.g6e.xlarge / **Configurazioni supportate:** LUNGHEZZA\_CONTESTO: 8000, CONCORRENZA MASSIMA: 2 / **Quantizzazione FP8 richiesta:** No
  - **Tipo di istanza:** ml.g6e.2xlarge / **Configurazioni supportate:** LUNGHEZZA\_CONTESTO: 8000, CONCORRENZA MASSIMA: 2 / **Quantizzazione FP8 richiesta:** No
  - **Tipo di istanza:** ml.g6e.4xlarge / **Configurazioni supportate:** LUNGHEZZA\_CONTESTO: 8000, CONCORRENZA MASSIMA: 4 / **Quantizzazione FP8 richiesta:** No
  - **Tipo di istanza:** ml.g6.12xlarge / **Configurazioni supportate:** LUNGHEZZA\_DEL CONTESTO: 4000, CONCORRENZA MASSIMA: 12<br />LUNGHEZZA\_CONTESTO: 8000, CONCORRENZA MASSIMA: 6 / **Quantizzazione FP8 richiesta:** No
  - **Tipo di istanza:** ml.g6.24xlarge / **Configurazioni supportate:** LUNGHEZZA\_CONTESTO: 8000, CONCORRENZA MASSIMA: 8 / **Quantizzazione FP8 richiesta:** No
  - **Tipo di istanza:** ml.g6.48xlarge / **Configurazioni supportate:** LUNGHEZZA\_CONTESTO: 8000, CONCORRENZA MASSIMA: 12 / **Quantizzazione FP8 richiesta:** No
  - **Tipo di istanza:** ml.p5.48xlarge / **Configurazioni supportate:** LUNGHEZZA\_CONTESTO: 16000, CONCORRENZA MASSIMA: 128<br />LUNGHEZZA\_CONTESTO: 64000, CONCORRENZA MASSIMA: 32<br />LUNGHEZZA\_CONTESTO: 128000, CONCORRENZA MASSIMA: 8 / **Quantizzazione FP8 richiesta:** No

- **Amazon Nova Lite**
  - **Tipo di istanza:** ml.g6.12xlarge / **Configurazioni supportate:** LUNGHEZZA\_CONTESTO: 8000, CONCORRENZA MASSIMA: 2 / **Quantizzazione FP8 richiesta:** Sì: abilitato per impostazione predefinita
  - **Tipo di istanza:** ml.g6.24xlarge / **Configurazioni supportate:** LUNGHEZZA DEL CONTESTO: 8000, CONCORRENZA MASSIMA: 4 / **Quantizzazione FP8 richiesta:** Sì: abilitato per impostazione predefinita
  - **Tipo di istanza:** ml.g6.48xlarge / **Configurazioni supportate:** LUNGHEZZA DEL CONTESTO: 4000, CONCORRENZA MASSIMA: 16<br />LUNGHEZZA\_CONTESTO: 8000, CONCORRENZA MASSIMA: 8 / **Quantizzazione FP8 richiesta:** No
  - **Tipo di istanza:** ml.p5.48xlarge / **Configurazioni supportate:** LUNGHEZZA\_CONTESTO: 16000, CONCORRENZA MASSIMA: 128<br />LUNGHEZZA\_CONTESTO: 60000, CONCORRENZA MASSIMA: 8 / **Quantizzazione FP8 richiesta:** No

- **Nova 2 Lite**
  - **Tipo di istanza:** ml.g6.48xlarge / **Configurazioni supportate:** LUNGHEZZA\_CONTESTO: 8000, CONCORRENZA MASSIMA: 8 / **Quantizzazione FP8 richiesta:** Sì: abilitato per impostazione predefinita
  - **Tipo di istanza:** ml.p5.48xlarge / **Configurazioni supportate:** LUNGHEZZA DEL CONTESTO: 16000, CONCORRENZA MASSIMA: 128<br />LUNGHEZZA\_CONTESTO: 64000, CONCORRENZA MASSIMA: 32<br />LUNGHEZZA\_CONTESTO: 128000, CONCORRENZA MASSIMA: 8<br />LUNGHEZZA\_CONTESTO: 256000, CONCORRENZA MASSIMA: 2 / **Quantizzazione FP8 richiesta:** No



**Nota**  
Nei casi in cui è richiesta la quantizzazione FP8, sarà abilitata per impostazione predefinita.  
I valori MAX\_CONCURRENCY mostrati sono limiti superiori per ogni impostazione CONTEXT\_LENGTH. È possibile utilizzare lunghezze di contesto inferiori con la stessa concorrenza, ma il superamento di questi valori impedirà la creazione dell'endpoint. SageMaker   
Ad esempio, su Amazon Nova Micro con un ml.g5.12xlarge:  
`CONTEXT_LENGTH=2000``MAX_CONCURRENCY=12`, → Valido
`CONTEXT_LENGTH=8000`, `MAX_CONCURRENCY=12` → Rifiutato (il limite di concorrenza è 6 alla lunghezza del contesto 8000)
`CONTEXT_LENGTH=8000`, → Valido `MAX_CONCURRENCY=4`
`CONTEXT_LENGTH=8000`, `MAX_CONCURRENCY=6` → Valido
`CONTEXT_LENGTH=10000`→ Rifiutato (la lunghezza massima del contesto è 8000 in questa istanza)

## Componenti di inferenza
<a name="nova-sagemaker-inference-components"></a>

Puoi distribuire modelli Amazon Nova utilizzando componenti di SageMaker inferenza, che consentono di ospitare più modelli su un unico endpoint e ottimizzare l'utilizzo delle risorse. I componenti di inferenza consentono di specificare le risorse di calcolo (CPU, memoria, GPU) necessarie per ciascun modello, abilitando un hosting multimodello efficiente su un'infrastruttura condivisa.

La tabella seguente elenca i requisiti minimi di risorse di calcolo per ogni modello Amazon Nova quando si utilizzano componenti di inferenza:


****  

| Modello | Principali core della CPU | Memoria minima (MB) | Numero minimo di GPU | 
| --- | --- | --- | --- | 
| Amazon Nova Micro | 15 | 25000 | 4 | 
| Amazon Nova Lite | 20 | 35000 | 4 | 
| Nova 2 Lite | 20 | 100000 | 4 | 

**Nota**  
I `ComputeResourceRequirements` valori devono soddisfare o superare i requisiti minimi elencati nella tabella precedente per il modello che si sta distribuendo. L'utilizzo di valori inferiori ai minimi impedirà la creazione del componente di inferenza.  
È possibile distribuire più componenti di inferenza sullo stesso endpoint, purché il fabbisogno totale di risorse non superi la capacità dell'istanza.  
Il numero di componenti di inferenza che è possibile ospitare su un singolo endpoint dipende dalle risorse disponibili del tipo di istanza e dai requisiti minimi di ogni modello. Ad esempio, su un `ml.p5.48xlarge` (8 GPU, 192 vCPU, \~1 TB di memoria):  
1 componente di inferenza Amazon Nova Micro (4 GPU, 15 core CPU, 25000 MB) → Valido
2 componenti di inferenza Amazon Nova Micro (8 GPU in totale, 30 core CPU, 50000 MB) → Valido (rientra nella capacità dell'istanza)
1 componente di inferenza Nova 2 Lite (4 GPU, 20 core CPU, 100000 MB) → Valido
2 componenti di inferenza Nova 2 Lite (8 GPU in totale, 40 core CPU, 200000 MB) → Valido
3 componenti di inferenza Amazon Nova Micro (12 GPU in totale) → Rifiutato (supera le 8 GPU disponibili)

## AWS Regioni supportate
<a name="nova-sagemaker-inference-regions"></a>

La tabella seguente elenca le AWS regioni in cui i modelli Amazon Nova sono disponibili in SageMaker inferenza:


****  

| Nome della regione | Codice regione | Disponibilità | 
| --- | --- | --- | 
| Stati Uniti orientali (Virginia settentrionale) | us-east-1 | Disponibilità | 
| Stati Uniti occidentali (Oregon) | us-west-2 | Disponibilità | 

## Immagini dei container supportate
<a name="nova-sagemaker-inference-container-images"></a>

La tabella seguente elenca gli URI dell'immagine del contenitore per i modelli Amazon Nova in base all' SageMaker inferenza per regione. Il `SM-Inference-latest` tag attualmente punta a. `v1.4`


****  

| Region | URI dell'immagine del contenitore | 
| --- | --- | 
| us-east-1 | 708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-inference-repo:SM-Inference-latest | 
| us-west-2 | 176779409107.dkr.ecr.us-west-2.amazonaws.com/nova-inference-repo:SM-Inference-latest | 

## Best practice
<a name="nova-sagemaker-inference-best-practices"></a>

Per le migliori pratiche sulla distribuzione e la gestione dei modelli su SageMaker, consulta [Best Practices](https://docs.aws.amazon.com//sagemaker/latest/dg/best-practices.html) for. SageMaker

## Supporto
<a name="nova-sagemaker-inference-support"></a>

Per problemi e supporto con i modelli Amazon Nova sull' SageMaker inferenza, contatta l' AWS assistenza tramite la console o il tuo AWS account manager.

**Topics**
+ [Funzionalità](#nova-sagemaker-inference-features)
+ [Modelli e istanze supportati](#nova-sagemaker-inference-supported)
+ [Componenti di inferenza](#nova-sagemaker-inference-components)
+ [AWS Regioni supportate](#nova-sagemaker-inference-regions)
+ [Immagini dei container supportate](#nova-sagemaker-inference-container-images)
+ [Best practice](#nova-sagemaker-inference-best-practices)
+ [Supporto](#nova-sagemaker-inference-support)
+ [Nozioni di base](nova-sagemaker-inference-getting-started.md)
+ [Caratteristiche del contenitore di inferenza](nova-sagemaker-inference-container-features.md)
+ [Documentazione di riferimento delle API](nova-sagemaker-inference-api-reference.md)
+ [Valuta i modelli ospitati su SageMaker Inference](nova-eval-on-sagemaker-inference.md)
+ [Implementazione di modelli Amazon Nova Forge nel rilevamento degli abusi di Amazon SageMaker Inference](nova-sagemaker-inference-abuse-detection.md)