Referência de modelos compatíveis - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Referência de modelos compatíveis

As tabelas a seguir mostram os modelos para os quais a SageMaker IA oferece suporte à otimização de inferência e mostram as técnicas de otimização suportadas.

Modelos Llama compatíveis
Nome do modelo Formatos de dados suportados para quantização Suporta decodificação especulativa Suporta carregamento rápido de modelos Bibliotecas usadas para compilação
Meta Llama 2 13B

INT4-AWQ

INT8-SmoothQuant

FP8

Sim Sim

AWS Neurônio

TensorRT-LLM

Meta Llama 2 13B Chat

INT4-AWQ

INT8-SmoothQuant

FP8

Sim Sim

AWS Neurônio

TensorRT-LLM

Meta Llama 2 70B

INT4-AWQ

INT8-SmoothQuant

FP8

Sim Sim

AWS Neurônio

TensorRT-LLM

Meta Llama 2 70B Chat

INT4-AWQ

INT8-SmoothQuant

FP8

Sim Sim

AWS Neurônio

TensorRT-LLM

Metal Llama 2 7B

INT4-AWQ

INT8-SmoothQuant

FP8

Sim Sim

AWS Neurônio

TensorRT-LLM

Meta Llama 2 7B Chat

INT4-AWQ

INT8-SmoothQuant

FP8

Sim Sim

AWS Neurônio

TensorRT-LLM

Metal Llama 3 70B

INT4-AWQ

INT8-SmoothQuant

FP8

Sim Sim

AWS Neurônio

TensorRT-LLM

Meta Llama 3 70B Instruct

INT4-AWQ

INT8-SmoothQuant

FP8

Sim Sim

AWS Neurônio

TensorRT-LLM

Metal Llama 3 8B

INT4-AWQ

INT8-SmoothQuant

FP8

Sim Sim

AWS Neurônio

TensorRT-LLM

Meta Llama 3 8B Instruct

INT4-AWQ

INT8-SmoothQuant

FP8

Sim Sim

AWS Neurônio

TensorRT-LLM

Meta Código Llama 13B

INT4-AWQ

INT8-SmoothQuant

FP8

Sim Sim

TensorRT-LLM

Meta Code Llama 13B Instruct

INT4-AWQ

INT8-SmoothQuant

FP8

Sim Sim

TensorRT-LLM

Meta Código Llama 13B Python

INT4-AWQ

INT8-SmoothQuant

FP8

Sim Sim

TensorRT-LLM

Meta Código Llama 34B

INT4-AWQ

INT8-SmoothQuant

FP8

Sim Sim

TensorRT-LLM

Meta Code Llama 34B Instruct

INT4-AWQ

INT8-SmoothQuant

FP8

Sim Sim

TensorRT-LLM

Meta Código Llama 34B Python

INT4-AWQ

INT8-SmoothQuant

FP8

Sim Sim

TensorRT-LLM

Meta Código Llama 70B

INT4-AWQ

INT8-SmoothQuant

FP8

Sim Sim

TensorRT-LLM

Meta Code Llama 70B Instruct

INT4-AWQ

INT8-SmoothQuant

FP8

Sim Sim

TensorRT-LLM

Meta Código Llama 70B Python

INT4-AWQ

INT8-SmoothQuant

FP8

Sim Sim

TensorRT-LLM

Meta Código Llama 7B

INT4-AWQ

INT8-SmoothQuant

FP8

Sim Sim

TensorRT-LLM

Meta Code Llama 7B Instruct

INT4-AWQ

INT8-SmoothQuant

FP8

Sim Sim

TensorRT-LLM

Meta Código Llama 7B Python

INT4-AWQ

INT8-SmoothQuant

FP8

Sim Sim

TensorRT-LLM

Neurônio Meta Llama 2 13B Nenhum Não Não

AWS Neurônio

Neurônio de bate-papo Meta Llama 2 13B Nenhum Não Não

AWS Neurônio

Neurônio Meta Llama 2 70B Nenhum Não Não

AWS Neurônio

Neurônio de bate-papo Meta Llama 2 70B Nenhum Não Não

AWS Neurônio

Neurônio Meta Llama 2 7B Nenhum Não Não

AWS Neurônio

Neurônio de bate-papo Meta Llama 2 7B Nenhum Não Não

AWS Neurônio

Neurônio Meta Llama 3 70B Nenhum Não Não

AWS Neurônio

Meta Llama 3 70B instrui o neurônio Nenhum Não Não

AWS Neurônio

Neurônio Meta Llama 3 8B Nenhum Não Não

AWS Neurônio

Meta Llama 3 8B instrui o neurônio Nenhum Não Não

AWS Neurônio

Meta-código Llama 70B: neurônio Nenhum Não Não

AWS Neurônio

Metacódigo Llama 7B: neurônio Nenhum Não Não

AWS Neurônio

Metacódigo Llama 7B Python Neuron Nenhum Não Não

AWS Neurônio

Metal Llama 3.1 405B FP8 Nenhum Sim Sim

Nenhum

Instrução Meta Llama 3.1 405B FP8 Nenhum Sim Sim

Nenhum

Metal Llama 3.1 70B

INT4-AWQ

FP8

Sim Sim

Nenhum

Meta Llama 3.1 70B Instruct

INT4-AWQ

FP8

Sim Sim

Nenhum

Metal Llama 3.1 8B

INT4-AWQ

FP8

Sim Sim

Nenhum

Instrução Meta Llama 3.1 8B

INT4-AWQ

FP8

Sim Sim

Nenhum

Metal Llama 3.1, neurônio 70B Nenhum Não Não

AWS Neurônio

Meta Llama 3.1 70B instrui o neurônio Nenhum Não Não

AWS Neurônio

Metal Llama 3 1 8B Neurônio Nenhum Não Não

AWS Neurônio

Meta Llama 3.1 8B instrui o neurônio Nenhum Não Não

AWS Neurônio

Modelos Mistral compatíveis
Nome do modelo Formatos de dados suportados para quantização Suporta decodificação especulativa Suporta carregamento rápido de modelos Bibliotecas usadas para compilação
Mistral 7B

INT4-AWQ

INT8-SmoothQuant

FP8

Sim Sim

AWS Neurônio

TensorRT-LLM

Mistral 7B Instruct

INT4-AWQ

INT8-SmoothQuant

FP8

Sim Sim

AWS Neurônio

TensorRT-LLM

Neurônio Mistral 7B Nenhum Não Não

AWS Neurônio

Mistral 7B Instruct Neuron Nenhum Não Não

AWS Neurônio

Modelos Mixtral compatíveis
Nome do modelo Formatos de dados suportados para quantização Suporta decodificação especulativa Suporta carregamento rápido de modelos Bibliotecas usadas para compilação
Mixtral-8x22B-Instruct-V0.1

INT4-AWQ

INT8-SmoothQuant

FP8

Sim Sim

TensorRT-LLM

Mixtral-8x22B V1

INT4-AWQ

INT8-SmoothQuant

FP8

Sim Sim

TensorRT-LLM

Mixtral 8x7B

INT4-AWQ

INT8-SmoothQuant

FP8

Sim Sim

TensorRT-LLM

Mixtral 8x7B Instruct

INT4-AWQ

INT8-SmoothQuant

FP8

Sim Sim

TensorRT-LLM