As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Referência de modelos compatíveis
As tabelas a seguir mostram os modelos para os quais a SageMaker IA oferece suporte à otimização de inferência e mostram as técnicas de otimização suportadas.
Nome do modelo | Formatos de dados suportados para quantização | Suporta decodificação especulativa | Suporta carregamento rápido de modelos | Bibliotecas usadas para compilação |
---|---|---|---|---|
Meta Llama 2 13B |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
AWS Neurônio TensorRT-LLM |
Meta Llama 2 13B Chat |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
AWS Neurônio TensorRT-LLM |
Meta Llama 2 70B |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
AWS Neurônio TensorRT-LLM |
Meta Llama 2 70B Chat |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
AWS Neurônio TensorRT-LLM |
Metal Llama 2 7B |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
AWS Neurônio TensorRT-LLM |
Meta Llama 2 7B Chat |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
AWS Neurônio TensorRT-LLM |
Metal Llama 3 70B |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
AWS Neurônio TensorRT-LLM |
Meta Llama 3 70B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
AWS Neurônio TensorRT-LLM |
Metal Llama 3 8B |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
AWS Neurônio TensorRT-LLM |
Meta Llama 3 8B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
AWS Neurônio TensorRT-LLM |
Meta Código Llama 13B |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
TensorRT-LLM |
Meta Code Llama 13B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
TensorRT-LLM |
Meta Código Llama 13B Python |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
TensorRT-LLM |
Meta Código Llama 34B |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
TensorRT-LLM |
Meta Code Llama 34B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
TensorRT-LLM |
Meta Código Llama 34B Python |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
TensorRT-LLM |
Meta Código Llama 70B |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
TensorRT-LLM |
Meta Code Llama 70B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
TensorRT-LLM |
Meta Código Llama 70B Python |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
TensorRT-LLM |
Meta Código Llama 7B |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
TensorRT-LLM |
Meta Code Llama 7B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
TensorRT-LLM |
Meta Código Llama 7B Python |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
TensorRT-LLM |
Neurônio Meta Llama 2 13B | Nenhum | Não | Não |
AWS Neurônio |
Neurônio de bate-papo Meta Llama 2 13B | Nenhum | Não | Não |
AWS Neurônio |
Neurônio Meta Llama 2 70B | Nenhum | Não | Não |
AWS Neurônio |
Neurônio de bate-papo Meta Llama 2 70B | Nenhum | Não | Não |
AWS Neurônio |
Neurônio Meta Llama 2 7B | Nenhum | Não | Não |
AWS Neurônio |
Neurônio de bate-papo Meta Llama 2 7B | Nenhum | Não | Não |
AWS Neurônio |
Neurônio Meta Llama 3 70B | Nenhum | Não | Não |
AWS Neurônio |
Meta Llama 3 70B instrui o neurônio | Nenhum | Não | Não |
AWS Neurônio |
Neurônio Meta Llama 3 8B | Nenhum | Não | Não |
AWS Neurônio |
Meta Llama 3 8B instrui o neurônio | Nenhum | Não | Não |
AWS Neurônio |
Meta-código Llama 70B: neurônio | Nenhum | Não | Não |
AWS Neurônio |
Metacódigo Llama 7B: neurônio | Nenhum | Não | Não |
AWS Neurônio |
Metacódigo Llama 7B Python Neuron | Nenhum | Não | Não |
AWS Neurônio |
Metal Llama 3.1 405B FP8 | Nenhum | Sim | Sim |
Nenhum |
Instrução Meta Llama 3.1 405B FP8 | Nenhum | Sim | Sim |
Nenhum |
Metal Llama 3.1 70B |
INT4-AWQ FP8 |
Sim | Sim |
Nenhum |
Meta Llama 3.1 70B Instruct |
INT4-AWQ FP8 |
Sim | Sim |
Nenhum |
Metal Llama 3.1 8B |
INT4-AWQ FP8 |
Sim | Sim |
Nenhum |
Instrução Meta Llama 3.1 8B |
INT4-AWQ FP8 |
Sim | Sim |
Nenhum |
Metal Llama 3.1, neurônio 70B | Nenhum | Não | Não |
AWS Neurônio |
Meta Llama 3.1 70B instrui o neurônio | Nenhum | Não | Não |
AWS Neurônio |
Metal Llama 3 1 8B Neurônio | Nenhum | Não | Não |
AWS Neurônio |
Meta Llama 3.1 8B instrui o neurônio | Nenhum | Não | Não |
AWS Neurônio |
Nome do modelo | Formatos de dados suportados para quantização | Suporta decodificação especulativa | Suporta carregamento rápido de modelos | Bibliotecas usadas para compilação |
---|---|---|---|---|
Mistral 7B |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
AWS Neurônio TensorRT-LLM |
Mistral 7B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
AWS Neurônio TensorRT-LLM |
Neurônio Mistral 7B | Nenhum | Não | Não |
AWS Neurônio |
Mistral 7B Instruct Neuron | Nenhum | Não | Não |
AWS Neurônio |
Nome do modelo | Formatos de dados suportados para quantização | Suporta decodificação especulativa | Suporta carregamento rápido de modelos | Bibliotecas usadas para compilação |
---|---|---|---|---|
Mixtral-8x22B-Instruct-V0.1 |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
TensorRT-LLM |
Mixtral-8x22B V1 |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
TensorRT-LLM |
Mixtral 8x7B |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
TensorRT-LLM |
Mixtral 8x7B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
TensorRT-LLM |