Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Le tabelle seguenti mostrano i modelli per i quali l' SageMaker IA supporta l'ottimizzazione dell'inferenza e le tecniche di ottimizzazione supportate.
Nome modello | Formati di dati supportati per la quantizzazione | Supporta la decodifica speculativa | Supporta il caricamento rapido dei modelli | Librerie utilizzate per la compilazione |
---|---|---|---|---|
Meta Llama 2 13B |
INT4-AWQ INT8-SmoothQuant FP8 |
Sì | Sì |
AWS Neurone Tensore RT-LLM |
Chat Meta Llama 2 13B |
INT4-FAQ INT8-SmoothQuant FP8 |
Sì | Sì |
AWS Neurone Tensore RT-LLM |
Meta Llama 2 70B |
INT4-AWQ INT8-SmoothQuant FP8 |
Sì | Sì |
AWS Neurone Tensore RT-LLM |
Chat da 70 MB di Meta Llama 2 |
INT4-FAQ INT8-SmoothQuant FP8 |
Sì | Sì |
AWS Neurone Tensore RT-LLM |
Meta Llama 2 7B |
INT4-AWQ INT8-SmoothQuant FP8 |
Sì | Sì |
AWS Neurone Tensore RT-LLM |
Chat Meta Llama 2 7B |
INT4-FAQ INT8-SmoothQuant FP8 |
Sì | Sì |
AWS Neurone Tensore RT-LLM |
Meta Llama 3 70B |
INT4-AWQ INT8-SmoothQuant FP8 |
Sì | Sì |
AWS Neurone Tensore RT-LLM |
Istruzioni Meta Llama 3 70B |
INT4-FAQ INT8-SmoothQuant FP8 |
Sì | Sì |
AWS Neurone Tensore RT-LLM |
Meta Llama 3 8B |
INT4-AWQ INT8-SmoothQuant FP8 |
Sì | Sì |
AWS Neurone Tensore RT-LLM |
Istruzioni Meta Llama 3 8B |
INT4-FAQ INT8-SmoothQuant FP8 |
Sì | Sì |
AWS Neurone Tensore RT-LLM |
Meta Code Llama 13B |
INT4-FAQ INT8-SmoothQuant FP8 |
Sì | Sì |
Tensore RT-LLM |
Istruzioni per Meta Code Llama 13B |
INT4-FAQ INT8-SmoothQuant FP8 |
Sì | Sì |
Tensore RT-LLM |
Meta Code Llama 13B Python |
INT4-AWQ INT8-SmoothQuant FP8 |
Sì | Sì |
Tensore RT-LLM |
Meta Code Llama 34B |
INT4-FAQ INT8-SmoothQuant FP8 |
Sì | Sì |
Tensore RT-LLM |
Meta Code Llama 34B - Istruzioni |
INT4-FAQ INT8-SmoothQuant FP8 |
Sì | Sì |
Tensore RT-LLM |
Meta codice Llama 34B Python |
INT4-AWQ INT8-SmoothQuant FP8 |
Sì | Sì |
Tensore RT-LLM |
Meta Code Llama 70B |
INT4-FAQ INT8-SmoothQuant FP8 |
Sì | Sì |
Tensore RT-LLM |
Istruzioni per Meta Code Llama 70B |
INT4-FAQ INT8-SmoothQuant FP8 |
Sì | Sì |
Tensore RT-LLM |
Meta codice Llama 70B Python |
INT4-AWQ INT8-SmoothQuant FP8 |
Sì | Sì |
Tensore RT-LLM |
Meta Code Llama 7B |
INT4-FAQ INT8-SmoothQuant FP8 |
Sì | Sì |
Tensore RT-LLM |
Istruzioni Meta Code Llama 7B |
INT4-FAQ INT8-SmoothQuant FP8 |
Sì | Sì |
Tensore RT-LLM |
Meta codice Llama 7B Python |
INT4-AWQ INT8-SmoothQuant FP8 |
Sì | Sì |
Tensore RT-LLM |
Neurone Meta Llama 2 13B | Nessuno | No | No |
AWS Neurone |
Neurone di chat Meta Llama 2 13B | Nessuno | No | No |
AWS Neurone |
Neurone Meta Llama 2 70B | Nessuno | No | No |
AWS Neurone |
Neurone di chat Meta Llama 2 70B | Nessuno | No | No |
AWS Neurone |
Neurone Meta Llama 2 7B | Nessuno | No | No |
AWS Neurone |
Neurone di chat Meta Llama 2 7B | Nessuno | No | No |
AWS Neurone |
Neurone Meta Llama 3 70B | Nessuno | No | No |
AWS Neurone |
Meta Llama 3 70B Istruisce il neurone | Nessuno | No | No |
AWS Neurone |
Neurone Meta Llama 3 8B | Nessuno | No | No |
AWS Neurone |
Meta Llama 3 8B Istruisce un neurone | Nessuno | No | No |
AWS Neurone |
Metacode Llama 70B Neuron | Nessuno | No | No |
AWS Neurone |
Meta Code Llama 7B Neuron | Nessuno | No | No |
AWS Neurone |
Meta Code Llama 7B Python Neuron | Nessuno | No | No |
AWS Neurone |
Meta Llama 3.1 405B FP8 | Nessuno | Sì | Sì |
Nessuno |
Istruzioni per Meta Llama 3.1 405B FP8 | Nessuno | Sì | Sì |
Nessuno |
Meta Llama 3.1 70B |
INT4-AWQ FP8 |
Sì | Sì |
Nessuno |
Istruzioni Meta Llama 3.1 70B |
INT4-FAQ FP8 |
Sì | Sì |
Nessuno |
Meta Llama 3.1 8B |
INT4-AWQ FP8 |
Sì | Sì |
Nessuno |
Istruzioni Meta Llama 3.1 8B |
INT4-FAQ FP8 |
Sì | Sì |
Nessuno |
Neurone Meta Llama 3.1 70B | Nessuno | No | No |
AWS Neurone |
Meta Llama 3.1 70B Istruisce un neurone | Nessuno | No | No |
AWS Neurone |
Neurone Meta Llama 3 1 8B | Nessuno | No | No |
AWS Neurone |
Meta Llama 3.1 8B Istruisce un neurone | Nessuno | No | No |
AWS Neurone |
Nome modello | Formati di dati supportati per la quantizzazione | Supporta la decodifica speculativa | Supporta il caricamento rapido dei modelli | Librerie utilizzate per la compilazione |
---|---|---|---|---|
Mistral 7B |
INT4-AWQ INT8-SmoothQuant FP8 |
Sì | Sì |
AWS Neurone Tensore RT-LLM |
Istruzione Mistral 7B |
INT4-FAQ INT8-SmoothQuant FP8 |
Sì | Sì |
AWS Neurone Tensore RT-LLM |
Neurone Mistral 7B | Nessuno | No | No |
AWS Neurone |
Mistral 7B Istruisce il neurone | Nessuno | No | No |
AWS Neurone |
Nome modello | Formati di dati supportati per la quantizzazione | Supporta la decodifica speculativa | Supporta il caricamento rapido dei modelli | Librerie utilizzate per la compilazione |
---|---|---|---|---|
Mixtral-8x22b-Instruct-V0.1 |
INT4-AWQ INT8-SmoothQuant FP8 |
Sì | Sì |
Tensore RT-LLM |
Mixtral-8x22B V1 |
INT4-AWQ INT8-SmoothQuant FP8 |
Sì | Sì |
Tensore RT-LLM |
Mixtral 8x7B |
INT4-AWQ INT8-SmoothQuant FP8 |
Sì | Sì |
Tensore RT-LLM |
Istruzioni Mixtral 8x7B |
INT4-FAQ INT8-SmoothQuant FP8 |
Sì | Sì |
Tensore RT-LLM |