Seleziona le tue preferenze relative ai cookie

Utilizziamo cookie essenziali e strumenti simili necessari per fornire il nostro sito e i nostri servizi. Utilizziamo i cookie prestazionali per raccogliere statistiche anonime in modo da poter capire come i clienti utilizzano il nostro sito e apportare miglioramenti. I cookie essenziali non possono essere disattivati, ma puoi fare clic su \"Personalizza\" o \"Rifiuta\" per rifiutare i cookie prestazionali.

Se sei d'accordo, AWS e le terze parti approvate utilizzeranno i cookie anche per fornire utili funzionalità del sito, ricordare le tue preferenze e visualizzare contenuti pertinenti, inclusa la pubblicità pertinente. Per continuare senza accettare questi cookie, fai clic su \"Continua\" o \"Rifiuta\". Per effettuare scelte più dettagliate o saperne di più, fai clic su \"Personalizza\".

Riferimento ai modelli supportati

Modalità Focus
Riferimento ai modelli supportati - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Le tabelle seguenti mostrano i modelli per i quali l' SageMaker IA supporta l'ottimizzazione dell'inferenza e le tecniche di ottimizzazione supportate.

Modelli Llama supportati
Nome modello Formati di dati supportati per la quantizzazione Supporta la decodifica speculativa Supporta il caricamento rapido dei modelli Librerie utilizzate per la compilazione
Meta Llama 2 13B

INT4-AWQ

INT8-SmoothQuant

FP8

AWS Neurone

Tensore RT-LLM

Chat Meta Llama 2 13B

INT4-FAQ

INT8-SmoothQuant

FP8

AWS Neurone

Tensore RT-LLM

Meta Llama 2 70B

INT4-AWQ

INT8-SmoothQuant

FP8

AWS Neurone

Tensore RT-LLM

Chat da 70 MB di Meta Llama 2

INT4-FAQ

INT8-SmoothQuant

FP8

AWS Neurone

Tensore RT-LLM

Meta Llama 2 7B

INT4-AWQ

INT8-SmoothQuant

FP8

AWS Neurone

Tensore RT-LLM

Chat Meta Llama 2 7B

INT4-FAQ

INT8-SmoothQuant

FP8

AWS Neurone

Tensore RT-LLM

Meta Llama 3 70B

INT4-AWQ

INT8-SmoothQuant

FP8

AWS Neurone

Tensore RT-LLM

Istruzioni Meta Llama 3 70B

INT4-FAQ

INT8-SmoothQuant

FP8

AWS Neurone

Tensore RT-LLM

Meta Llama 3 8B

INT4-AWQ

INT8-SmoothQuant

FP8

AWS Neurone

Tensore RT-LLM

Istruzioni Meta Llama 3 8B

INT4-FAQ

INT8-SmoothQuant

FP8

AWS Neurone

Tensore RT-LLM

Meta Code Llama 13B

INT4-FAQ

INT8-SmoothQuant

FP8

Tensore RT-LLM

Istruzioni per Meta Code Llama 13B

INT4-FAQ

INT8-SmoothQuant

FP8

Tensore RT-LLM

Meta Code Llama 13B Python

INT4-AWQ

INT8-SmoothQuant

FP8

Tensore RT-LLM

Meta Code Llama 34B

INT4-FAQ

INT8-SmoothQuant

FP8

Tensore RT-LLM

Meta Code Llama 34B - Istruzioni

INT4-FAQ

INT8-SmoothQuant

FP8

Tensore RT-LLM

Meta codice Llama 34B Python

INT4-AWQ

INT8-SmoothQuant

FP8

Tensore RT-LLM

Meta Code Llama 70B

INT4-FAQ

INT8-SmoothQuant

FP8

Tensore RT-LLM

Istruzioni per Meta Code Llama 70B

INT4-FAQ

INT8-SmoothQuant

FP8

Tensore RT-LLM

Meta codice Llama 70B Python

INT4-AWQ

INT8-SmoothQuant

FP8

Tensore RT-LLM

Meta Code Llama 7B

INT4-FAQ

INT8-SmoothQuant

FP8

Tensore RT-LLM

Istruzioni Meta Code Llama 7B

INT4-FAQ

INT8-SmoothQuant

FP8

Tensore RT-LLM

Meta codice Llama 7B Python

INT4-AWQ

INT8-SmoothQuant

FP8

Tensore RT-LLM

Neurone Meta Llama 2 13B Nessuno No No

AWS Neurone

Neurone di chat Meta Llama 2 13B Nessuno No No

AWS Neurone

Neurone Meta Llama 2 70B Nessuno No No

AWS Neurone

Neurone di chat Meta Llama 2 70B Nessuno No No

AWS Neurone

Neurone Meta Llama 2 7B Nessuno No No

AWS Neurone

Neurone di chat Meta Llama 2 7B Nessuno No No

AWS Neurone

Neurone Meta Llama 3 70B Nessuno No No

AWS Neurone

Meta Llama 3 70B Istruisce il neurone Nessuno No No

AWS Neurone

Neurone Meta Llama 3 8B Nessuno No No

AWS Neurone

Meta Llama 3 8B Istruisce un neurone Nessuno No No

AWS Neurone

Metacode Llama 70B Neuron Nessuno No No

AWS Neurone

Meta Code Llama 7B Neuron Nessuno No No

AWS Neurone

Meta Code Llama 7B Python Neuron Nessuno No No

AWS Neurone

Meta Llama 3.1 405B FP8 Nessuno

Nessuno

Istruzioni per Meta Llama 3.1 405B FP8 Nessuno

Nessuno

Meta Llama 3.1 70B

INT4-AWQ

FP8

Nessuno

Istruzioni Meta Llama 3.1 70B

INT4-FAQ

FP8

Nessuno

Meta Llama 3.1 8B

INT4-AWQ

FP8

Nessuno

Istruzioni Meta Llama 3.1 8B

INT4-FAQ

FP8

Nessuno

Neurone Meta Llama 3.1 70B Nessuno No No

AWS Neurone

Meta Llama 3.1 70B Istruisce un neurone Nessuno No No

AWS Neurone

Neurone Meta Llama 3 1 8B Nessuno No No

AWS Neurone

Meta Llama 3.1 8B Istruisce un neurone Nessuno No No

AWS Neurone

Modelli Mistral supportati
Nome modello Formati di dati supportati per la quantizzazione Supporta la decodifica speculativa Supporta il caricamento rapido dei modelli Librerie utilizzate per la compilazione
Mistral 7B

INT4-AWQ

INT8-SmoothQuant

FP8

AWS Neurone

Tensore RT-LLM

Istruzione Mistral 7B

INT4-FAQ

INT8-SmoothQuant

FP8

AWS Neurone

Tensore RT-LLM

Neurone Mistral 7B Nessuno No No

AWS Neurone

Mistral 7B Istruisce il neurone Nessuno No No

AWS Neurone

Modelli Mixtral supportati
Nome modello Formati di dati supportati per la quantizzazione Supporta la decodifica speculativa Supporta il caricamento rapido dei modelli Librerie utilizzate per la compilazione
Mixtral-8x22b-Instruct-V0.1

INT4-AWQ

INT8-SmoothQuant

FP8

Tensore RT-LLM

Mixtral-8x22B V1

INT4-AWQ

INT8-SmoothQuant

FP8

Tensore RT-LLM

Mixtral 8x7B

INT4-AWQ

INT8-SmoothQuant

FP8

Tensore RT-LLM

Istruzioni Mixtral 8x7B

INT4-FAQ

INT8-SmoothQuant

FP8

Tensore RT-LLM

PrivacyCondizioni del sitoPreferenze cookie
© 2025, Amazon Web Services, Inc. o società affiliate. Tutti i diritti riservati.