Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
SageMaker Inferenza
I modelli Amazon Nova personalizzati sono ora disponibili in SageMaker inferenza. Con Amazon Nova attivo SageMaker, puoi iniziare a ottenere previsioni o inferenze dai tuoi modelli Amazon Nova personalizzati addestrati. SageMaker offre un'ampia selezione di infrastrutture ML e opzioni di implementazione dei modelli per aiutarti a soddisfare tutte le tue esigenze di inferenza ML. Con SageMaker l'inferenza, è possibile scalare l'implementazione dei modelli, gestirli in modo più efficace in produzione e ridurre il carico operativo.
SageMaker offre diverse opzioni di inferenza, come endpoint in tempo reale per ottenere inferenze a bassa latenza ed endpoint asincroni per batch di richieste. Sfruttando l’opzione di inferenza appropriata per il tuo caso d’uso, puoi garantire un’implementazione e un’inferenza efficienti del modello. Per ulteriori informazioni sull'inferenza, consulta Implementare modelli per l'inferenza. SageMaker
Importante
Nell'inferenza sono supportati solo modelli e LoRA-merged modelli personalizzati completi. SageMaker Per i modelli LoRa e i modelli base non uniti, usa Amazon Bedrock.
Funzionalità
Le seguenti funzionalità sono disponibili per i modelli Amazon Nova sull' SageMaker inferenza:
Funzionalità del modello
-
Generazione di testo
Implementazione e scalabilità
-
Real-time endpoint con selezione personalizzata dell'istanza
-
Auto Scaling: regola automaticamente la capacità in base ai modelli di traffico per ottimizzare i costi e l'utilizzo della GPU. Per ulteriori informazioni, consulta Automately Scale Amazon SageMaker Models.
-
Supporto API di streaming per la generazione di token in tempo reale
Monitoraggio e ottimizzazione
-
CloudWatch Integrazione con Amazon per il monitoraggio e gli avvisi
-
Ottimizzazione Zone-aware della latenza di disponibilità tramite configurazione VPC
Strumenti di sviluppo
-
AWS CLI supporto: per ulteriori informazioni, consulta AWS CLI Command Reference for. SageMaker
-
Integrazione dei notebook tramite supporto SDK
Modelli e istanze supportati
Quando crei gli endpoint di SageMaker inferenza, puoi impostare due variabili di ambiente per configurare la distribuzione: e. CONTEXT_LENGTH MAX_CONCURRENCY
-
CONTEXT_LENGTH— Lunghezza totale massima del token (ingresso+output) per richiesta -
MAX_CONCURRENCY— Numero massimo di richieste simultanee che l'endpoint servirà
La tabella seguente elenca i modelli, i tipi di istanza e le configurazioni supportate di Amazon Nova supportati. I valori MAX_CONCURRENCY rappresentano la concorrenza massima supportata per ogni impostazione CONTEXT_LENGTH:
| Modello | Tipo di istanza | Configurazioni supportate | Quantizzazione FP8 richiesta |
|---|---|---|---|
| Amazon Nova Micro | ml.g5.12xlarge |
LUNGHEZZA_CONTESTO: 4000, CONCORRENZA MASSIMA: 12 LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 6 |
No |
| ml.g5.24xlarge | LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 8 | No | |
| ml.g6e.xlarge |
LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 2 |
No | |
| ml.g6e.2xlarge |
LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 2 |
No | |
| ml.g6e.4xlarge |
LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 4 |
No | |
| ml.g6.12xlarge |
LUNGHEZZA_DEL CONTESTO: 4000, CONCORRENZA MASSIMA: 12 LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 6 |
No | |
| ml.g6.24xlarge | LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 8 | No | |
| ml.g6.48xlarge | LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 12 | No | |
| ml.p5.48xlarge |
LUNGHEZZA_CONTESTO: 16000, CONCORRENZA MASSIMA: 128 LUNGHEZZA_CONTESTO: 64000, CONCORRENZA MASSIMA: 32 LUNGHEZZA_CONTESTO: 128000, CONCORRENZA MASSIMA: 8 |
No | |
| Amazon Nova Lite | ml.g6.12xlarge |
LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 2 |
Sì: abilitato per impostazione predefinita |
| ml.g6.24xlarge |
LUNGHEZZA DEL CONTESTO: 8000, CONCORRENZA MASSIMA: 4 |
Sì: abilitato per impostazione predefinita | |
| ml.g6.48xlarge |
LUNGHEZZA DEL CONTESTO: 4000, CONCORRENZA MASSIMA: 16 LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 8 |
No | |
| ml.p5.48xlarge |
LUNGHEZZA_CONTESTO: 16000, CONCORRENZA MASSIMA: 128 LUNGHEZZA_CONTESTO: 60000, CONCORRENZA MASSIMA: 8 |
No | |
| Nova 2 Lite | ml.g6.48xlarge |
LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 8 |
Sì: abilitato per impostazione predefinita |
| ml.p5.48xlarge |
LUNGHEZZA DEL CONTESTO: 16000, CONCORRENZA MASSIMA: 128 LUNGHEZZA_CONTESTO: 64000, CONCORRENZA MASSIMA: 32 LUNGHEZZA_CONTESTO: 128000, CONCORRENZA MASSIMA: 8 LUNGHEZZA_CONTESTO: 256000, CONCORRENZA MASSIMA: 2 |
No |
Nota
Nei casi in cui è richiesta la quantizzazione FP8, sarà abilitata per impostazione predefinita.
I valori MAX_CONCURRENCY mostrati sono limiti superiori per ogni impostazione CONTEXT_LENGTH. È possibile utilizzare lunghezze di contesto inferiori con la stessa concorrenza, ma il superamento di questi valori impedirà la creazione dell'endpoint. SageMaker
Ad esempio, su Amazon Nova Micro con un ml.g5.12xlarge:
-
CONTEXT_LENGTH=2000MAX_CONCURRENCY=12, → Valido -
CONTEXT_LENGTH=8000,MAX_CONCURRENCY=12→ Rifiutato (il limite di concorrenza è 6 alla lunghezza del contesto 8000) -
CONTEXT_LENGTH=8000, → ValidoMAX_CONCURRENCY=4 -
CONTEXT_LENGTH=8000,MAX_CONCURRENCY=6→ Valido -
CONTEXT_LENGTH=10000→ Rifiutato (la lunghezza massima del contesto è 8000 in questa istanza)
Componenti di inferenza
Puoi distribuire modelli Amazon Nova utilizzando componenti di SageMaker inferenza, che consentono di ospitare più modelli su un unico endpoint e ottimizzare l'utilizzo delle risorse. I componenti di inferenza consentono di specificare le risorse di calcolo (CPU, memoria, GPU) necessarie per ciascun modello, abilitando un hosting multimodello efficiente su un'infrastruttura condivisa.
La tabella seguente elenca i requisiti minimi di risorse di calcolo per ogni modello Amazon Nova quando si utilizzano componenti di inferenza:
| Modello | Principali core della CPU | Memoria minima (MB) | Numero minimo di GPU |
|---|---|---|---|
| Amazon Nova Micro | 15 | 25000 | 4 |
| Amazon Nova Lite | 20 | 35000 | 4 |
| Nova 2 Lite | 20 | 100000 | 4 |
Nota
I ComputeResourceRequirements valori devono soddisfare o superare i requisiti minimi elencati nella tabella precedente per il modello che si sta distribuendo. L'utilizzo di valori inferiori ai minimi impedirà la creazione del componente di inferenza.
È possibile distribuire più componenti di inferenza sullo stesso endpoint, purché il fabbisogno totale di risorse non superi la capacità dell'istanza.
Il numero di componenti di inferenza che è possibile ospitare su un singolo endpoint dipende dalle risorse disponibili del tipo di istanza e dai requisiti minimi di ogni modello. Ad esempio, su un ml.p5.48xlarge (8 GPU, 192 vCPU, ~1 TB di memoria):
-
1 componente di inferenza Amazon Nova Micro (4 GPU, 15 core CPU, 25000 MB) → Valido
-
2 componenti di inferenza Amazon Nova Micro (8 GPU in totale, 30 core CPU, 50000 MB) → Valido (rientra nella capacità dell'istanza)
-
1 componente di inferenza Nova 2 Lite (4 GPU, 20 core CPU, 100000 MB) → Valido
-
2 componenti di inferenza Nova 2 Lite (8 GPU in totale, 40 core CPU, 200000 MB) → Valido
-
3 componenti di inferenza Amazon Nova Micro (12 GPU in totale) → Rifiutato (supera le 8 GPU disponibili)
AWS Regioni supportate
La tabella seguente elenca le AWS regioni in cui i modelli Amazon Nova sono disponibili in SageMaker inferenza:
| Nome della regione | Codice regione | Disponibilità |
|---|---|---|
| Stati Uniti orientali (Virginia settentrionale) | us-east-1 | Disponibilità |
| Stati Uniti occidentali (Oregon) | us-west-2 | Disponibilità |
Immagini dei container supportate
La tabella seguente elenca gli URI dell'immagine del contenitore per i modelli Amazon Nova in base all' SageMaker inferenza per regione. Il SM-Inference-latest tag attualmente punta a. v1.4
| Region | URI dell'immagine del contenitore |
|---|---|
| us-east-1 | 708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-inference-repo:SM-Inference-latest |
| us-west-2 | 176779409107.dkr.ecr.us-west-2.amazonaws.com/nova-inference-repo:SM-Inference-latest |
Best practice
Per le migliori pratiche sulla distribuzione e la gestione dei modelli su SageMaker, consulta Best Practices for. SageMaker
Supporto
Per problemi e supporto con i modelli Amazon Nova sull' SageMaker inferenza, contatta l' AWS assistenza tramite la console o il tuo AWS account manager.