View a markdown version of this page

SageMaker Inferenza - Amazon Nova

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

SageMaker Inferenza

I modelli Amazon Nova personalizzati sono ora disponibili in SageMaker inferenza. Con Amazon Nova attivo SageMaker, puoi iniziare a ottenere previsioni o inferenze dai tuoi modelli Amazon Nova personalizzati addestrati. SageMaker offre un'ampia selezione di infrastrutture ML e opzioni di implementazione dei modelli per aiutarti a soddisfare tutte le tue esigenze di inferenza ML. Con SageMaker l'inferenza, è possibile scalare l'implementazione dei modelli, gestirli in modo più efficace in produzione e ridurre il carico operativo.

SageMaker offre diverse opzioni di inferenza, come endpoint in tempo reale per ottenere inferenze a bassa latenza ed endpoint asincroni per batch di richieste. Sfruttando l’opzione di inferenza appropriata per il tuo caso d’uso, puoi garantire un’implementazione e un’inferenza efficienti del modello. Per ulteriori informazioni sull'inferenza, consulta Implementare modelli per l'inferenza. SageMaker

Importante

Nell'inferenza sono supportati solo modelli e LoRA-merged modelli personalizzati completi. SageMaker Per i modelli LoRa e i modelli base non uniti, usa Amazon Bedrock.

Funzionalità

Le seguenti funzionalità sono disponibili per i modelli Amazon Nova sull' SageMaker inferenza:

Funzionalità del modello

  • Generazione di testo

Implementazione e scalabilità

  • Real-time endpoint con selezione personalizzata dell'istanza

  • Auto Scaling: regola automaticamente la capacità in base ai modelli di traffico per ottimizzare i costi e l'utilizzo della GPU. Per ulteriori informazioni, consulta Automately Scale Amazon SageMaker Models.

  • Supporto API di streaming per la generazione di token in tempo reale

Monitoraggio e ottimizzazione

  • CloudWatch Integrazione con Amazon per il monitoraggio e gli avvisi

  • Ottimizzazione Zone-aware della latenza di disponibilità tramite configurazione VPC

Strumenti di sviluppo

  • AWS CLI supporto: per ulteriori informazioni, consulta AWS CLI Command Reference for. SageMaker

  • Integrazione dei notebook tramite supporto SDK

Modelli e istanze supportati

Quando crei gli endpoint di SageMaker inferenza, puoi impostare due variabili di ambiente per configurare la distribuzione: e. CONTEXT_LENGTH MAX_CONCURRENCY

  • CONTEXT_LENGTH— Lunghezza totale massima del token (ingresso+output) per richiesta

  • MAX_CONCURRENCY— Numero massimo di richieste simultanee che l'endpoint servirà

La tabella seguente elenca i modelli, i tipi di istanza e le configurazioni supportate di Amazon Nova supportati. I valori MAX_CONCURRENCY rappresentano la concorrenza massima supportata per ogni impostazione CONTEXT_LENGTH:

Modello Tipo di istanza Configurazioni supportate Quantizzazione FP8 richiesta
Amazon Nova Micro ml.g5.12xlarge

LUNGHEZZA_CONTESTO: 4000, CONCORRENZA MASSIMA: 12

LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 6

No
ml.g5.24xlarge LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 8 No
ml.g6e.xlarge

LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 2

No
ml.g6e.2xlarge

LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 2

No
ml.g6e.4xlarge

LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 4

No
ml.g6.12xlarge

LUNGHEZZA_DEL CONTESTO: 4000, CONCORRENZA MASSIMA: 12

LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 6

No
ml.g6.24xlarge LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 8 No
ml.g6.48xlarge LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 12 No
ml.p5.48xlarge

LUNGHEZZA_CONTESTO: 16000, CONCORRENZA MASSIMA: 128

LUNGHEZZA_CONTESTO: 64000, CONCORRENZA MASSIMA: 32

LUNGHEZZA_CONTESTO: 128000, CONCORRENZA MASSIMA: 8

No
Amazon Nova Lite ml.g6.12xlarge

LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 2

Sì: abilitato per impostazione predefinita
ml.g6.24xlarge

LUNGHEZZA DEL CONTESTO: 8000, CONCORRENZA MASSIMA: 4

Sì: abilitato per impostazione predefinita
ml.g6.48xlarge

LUNGHEZZA DEL CONTESTO: 4000, CONCORRENZA MASSIMA: 16

LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 8

No
ml.p5.48xlarge

LUNGHEZZA_CONTESTO: 16000, CONCORRENZA MASSIMA: 128

LUNGHEZZA_CONTESTO: 60000, CONCORRENZA MASSIMA: 8

No
Nova 2 Lite ml.g6.48xlarge

LUNGHEZZA_CONTESTO: 8000, CONCORRENZA MASSIMA: 8

Sì: abilitato per impostazione predefinita
ml.p5.48xlarge

LUNGHEZZA DEL CONTESTO: 16000, CONCORRENZA MASSIMA: 128

LUNGHEZZA_CONTESTO: 64000, CONCORRENZA MASSIMA: 32

LUNGHEZZA_CONTESTO: 128000, CONCORRENZA MASSIMA: 8

LUNGHEZZA_CONTESTO: 256000, CONCORRENZA MASSIMA: 2

No
Nota

Nei casi in cui è richiesta la quantizzazione FP8, sarà abilitata per impostazione predefinita.

I valori MAX_CONCURRENCY mostrati sono limiti superiori per ogni impostazione CONTEXT_LENGTH. È possibile utilizzare lunghezze di contesto inferiori con la stessa concorrenza, ma il superamento di questi valori impedirà la creazione dell'endpoint. SageMaker

Ad esempio, su Amazon Nova Micro con un ml.g5.12xlarge:

  • CONTEXT_LENGTH=2000MAX_CONCURRENCY=12, → Valido

  • CONTEXT_LENGTH=8000, MAX_CONCURRENCY=12 → Rifiutato (il limite di concorrenza è 6 alla lunghezza del contesto 8000)

  • CONTEXT_LENGTH=8000, → Valido MAX_CONCURRENCY=4

  • CONTEXT_LENGTH=8000, MAX_CONCURRENCY=6 → Valido

  • CONTEXT_LENGTH=10000→ Rifiutato (la lunghezza massima del contesto è 8000 in questa istanza)

Componenti di inferenza

Puoi distribuire modelli Amazon Nova utilizzando componenti di SageMaker inferenza, che consentono di ospitare più modelli su un unico endpoint e ottimizzare l'utilizzo delle risorse. I componenti di inferenza consentono di specificare le risorse di calcolo (CPU, memoria, GPU) necessarie per ciascun modello, abilitando un hosting multimodello efficiente su un'infrastruttura condivisa.

La tabella seguente elenca i requisiti minimi di risorse di calcolo per ogni modello Amazon Nova quando si utilizzano componenti di inferenza:

Modello Principali core della CPU Memoria minima (MB) Numero minimo di GPU
Amazon Nova Micro 15 25000 4
Amazon Nova Lite 20 35000 4
Nova 2 Lite 20 100000 4
Nota

I ComputeResourceRequirements valori devono soddisfare o superare i requisiti minimi elencati nella tabella precedente per il modello che si sta distribuendo. L'utilizzo di valori inferiori ai minimi impedirà la creazione del componente di inferenza.

È possibile distribuire più componenti di inferenza sullo stesso endpoint, purché il fabbisogno totale di risorse non superi la capacità dell'istanza.

Il numero di componenti di inferenza che è possibile ospitare su un singolo endpoint dipende dalle risorse disponibili del tipo di istanza e dai requisiti minimi di ogni modello. Ad esempio, su un ml.p5.48xlarge (8 GPU, 192 vCPU, ~1 TB di memoria):

  • 1 componente di inferenza Amazon Nova Micro (4 GPU, 15 core CPU, 25000 MB) → Valido

  • 2 componenti di inferenza Amazon Nova Micro (8 GPU in totale, 30 core CPU, 50000 MB) → Valido (rientra nella capacità dell'istanza)

  • 1 componente di inferenza Nova 2 Lite (4 GPU, 20 core CPU, 100000 MB) → Valido

  • 2 componenti di inferenza Nova 2 Lite (8 GPU in totale, 40 core CPU, 200000 MB) → Valido

  • 3 componenti di inferenza Amazon Nova Micro (12 GPU in totale) → Rifiutato (supera le 8 GPU disponibili)

AWS Regioni supportate

La tabella seguente elenca le AWS regioni in cui i modelli Amazon Nova sono disponibili in SageMaker inferenza:

Nome della regione Codice regione Disponibilità
Stati Uniti orientali (Virginia settentrionale) us-east-1 Disponibilità
Stati Uniti occidentali (Oregon) us-west-2 Disponibilità

Immagini dei container supportate

La tabella seguente elenca gli URI dell'immagine del contenitore per i modelli Amazon Nova in base all' SageMaker inferenza per regione. Il SM-Inference-latest tag attualmente punta a. v1.4

Region URI dell'immagine del contenitore
us-east-1 708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-inference-repo:SM-Inference-latest
us-west-2 176779409107.dkr.ecr.us-west-2.amazonaws.com/nova-inference-repo:SM-Inference-latest

Best practice

Per le migliori pratiche sulla distribuzione e la gestione dei modelli su SageMaker, consulta Best Practices for. SageMaker

Supporto

Per problemi e supporto con i modelli Amazon Nova sull' SageMaker inferenza, contatta l' AWS assistenza tramite la console o il tuo AWS account manager.