Riferimento ai modelli supportati

Modalità Focus

Riferimento ai modelli supportati - Amazon SageMaker AI

Le tabelle seguenti mostrano i modelli per i quali l' SageMaker IA supporta l'ottimizzazione dell'inferenza e le tecniche di ottimizzazione supportate.

Modelli Llama supportati
Nome modello	Formati di dati supportati per la quantizzazione	Supporta la decodifica speculativa	Supporta il caricamento rapido dei modelli	Librerie utilizzate per la compilazione
Meta Llama 2 13B	INT4-AWQ INT8-SmoothQuant FP8	Sì	Sì	AWS Neurone Tensore RT-LLM
Chat Meta Llama 2 13B	INT4-FAQ INT8-SmoothQuant FP8	Sì	Sì	AWS Neurone Tensore RT-LLM
Meta Llama 2 70B	INT4-AWQ INT8-SmoothQuant FP8	Sì	Sì	AWS Neurone Tensore RT-LLM
Chat da 70 MB di Meta Llama 2	INT4-FAQ INT8-SmoothQuant FP8	Sì	Sì	AWS Neurone Tensore RT-LLM
Meta Llama 2 7B	INT4-AWQ INT8-SmoothQuant FP8	Sì	Sì	AWS Neurone Tensore RT-LLM
Chat Meta Llama 2 7B	INT4-FAQ INT8-SmoothQuant FP8	Sì	Sì	AWS Neurone Tensore RT-LLM
Meta Llama 3 70B	INT4-AWQ INT8-SmoothQuant FP8	Sì	Sì	AWS Neurone Tensore RT-LLM
Istruzioni Meta Llama 3 70B	INT4-FAQ INT8-SmoothQuant FP8	Sì	Sì	AWS Neurone Tensore RT-LLM
Meta Llama 3 8B	INT4-AWQ INT8-SmoothQuant FP8	Sì	Sì	AWS Neurone Tensore RT-LLM
Istruzioni Meta Llama 3 8B	INT4-FAQ INT8-SmoothQuant FP8	Sì	Sì	AWS Neurone Tensore RT-LLM
Meta Code Llama 13B	INT4-FAQ INT8-SmoothQuant FP8	Sì	Sì	Tensore RT-LLM
Istruzioni per Meta Code Llama 13B	INT4-FAQ INT8-SmoothQuant FP8	Sì	Sì	Tensore RT-LLM
Meta Code Llama 13B Python	INT4-AWQ INT8-SmoothQuant FP8	Sì	Sì	Tensore RT-LLM
Meta Code Llama 34B	INT4-FAQ INT8-SmoothQuant FP8	Sì	Sì	Tensore RT-LLM
Meta Code Llama 34B - Istruzioni	INT4-FAQ INT8-SmoothQuant FP8	Sì	Sì	Tensore RT-LLM
Meta codice Llama 34B Python	INT4-AWQ INT8-SmoothQuant FP8	Sì	Sì	Tensore RT-LLM
Meta Code Llama 70B	INT4-FAQ INT8-SmoothQuant FP8	Sì	Sì	Tensore RT-LLM
Istruzioni per Meta Code Llama 70B	INT4-FAQ INT8-SmoothQuant FP8	Sì	Sì	Tensore RT-LLM
Meta codice Llama 70B Python	INT4-AWQ INT8-SmoothQuant FP8	Sì	Sì	Tensore RT-LLM
Meta Code Llama 7B	INT4-FAQ INT8-SmoothQuant FP8	Sì	Sì	Tensore RT-LLM
Istruzioni Meta Code Llama 7B	INT4-FAQ INT8-SmoothQuant FP8	Sì	Sì	Tensore RT-LLM
Meta codice Llama 7B Python	INT4-AWQ INT8-SmoothQuant FP8	Sì	Sì	Tensore RT-LLM
Neurone Meta Llama 2 13B	Nessuno	No	No	AWS Neurone
Neurone di chat Meta Llama 2 13B	Nessuno	No	No	AWS Neurone
Neurone Meta Llama 2 70B	Nessuno	No	No	AWS Neurone
Neurone di chat Meta Llama 2 70B	Nessuno	No	No	AWS Neurone
Neurone Meta Llama 2 7B	Nessuno	No	No	AWS Neurone
Neurone di chat Meta Llama 2 7B	Nessuno	No	No	AWS Neurone
Neurone Meta Llama 3 70B	Nessuno	No	No	AWS Neurone
Meta Llama 3 70B Istruisce il neurone	Nessuno	No	No	AWS Neurone
Neurone Meta Llama 3 8B	Nessuno	No	No	AWS Neurone
Meta Llama 3 8B Istruisce un neurone	Nessuno	No	No	AWS Neurone
Metacode Llama 70B Neuron	Nessuno	No	No	AWS Neurone
Meta Code Llama 7B Neuron	Nessuno	No	No	AWS Neurone
Meta Code Llama 7B Python Neuron	Nessuno	No	No	AWS Neurone
Meta Llama 3.1 405B FP8	Nessuno	Sì	Sì	Nessuno
Istruzioni per Meta Llama 3.1 405B FP8	Nessuno	Sì	Sì	Nessuno
Meta Llama 3.1 70B	INT4-AWQ FP8	Sì	Sì	Nessuno
Istruzioni Meta Llama 3.1 70B	INT4-FAQ FP8	Sì	Sì	Nessuno
Meta Llama 3.1 8B	INT4-AWQ FP8	Sì	Sì	Nessuno
Istruzioni Meta Llama 3.1 8B	INT4-FAQ FP8	Sì	Sì	Nessuno
Neurone Meta Llama 3.1 70B	Nessuno	No	No	AWS Neurone
Meta Llama 3.1 70B Istruisce un neurone	Nessuno	No	No	AWS Neurone
Neurone Meta Llama 3 1 8B	Nessuno	No	No	AWS Neurone
Meta Llama 3.1 8B Istruisce un neurone	Nessuno	No	No	AWS Neurone

Modelli Mistral supportati
Nome modello	Formati di dati supportati per la quantizzazione	Supporta la decodifica speculativa	Supporta il caricamento rapido dei modelli	Librerie utilizzate per la compilazione
Mistral 7B	INT4-AWQ INT8-SmoothQuant FP8	Sì	Sì	AWS Neurone Tensore RT-LLM
Istruzione Mistral 7B	INT4-FAQ INT8-SmoothQuant FP8	Sì	Sì	AWS Neurone Tensore RT-LLM
Neurone Mistral 7B	Nessuno	No	No	AWS Neurone
Mistral 7B Istruisce il neurone	Nessuno	No	No	AWS Neurone

Modelli Mixtral supportati
Nome modello	Formati di dati supportati per la quantizzazione	Supporta la decodifica speculativa	Supporta il caricamento rapido dei modelli	Librerie utilizzate per la compilazione
Mixtral-8x22b-Instruct-V0.1	INT4-AWQ INT8-SmoothQuant FP8	Sì	Sì	Tensore RT-LLM
Mixtral-8x22B V1	INT4-AWQ INT8-SmoothQuant FP8	Sì	Sì	Tensore RT-LLM
Mixtral 8x7B	INT4-AWQ INT8-SmoothQuant FP8	Sì	Sì	Tensore RT-LLM
Istruzioni Mixtral 8x7B	INT4-FAQ INT8-SmoothQuant FP8	Sì	Sì	Tensore RT-LLM

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Valuta le prestazioni

Opzioni per valutare il modello

Seleziona le tue preferenze relative ai cookie

Personalizza le tue preferenze relative ai cookie

Essenziali

Prestazione

Funzionali

Pubblicitari

Impossibile salvare le preferenze dei cookie

Riferimento ai modelli supportati

Related resources

Questa pagina ti è stata utile?

Related resources

Argomento successivo:

Argomento precedente:

Hai bisogno di aiuto?