Referência de modelos compatíveis

As tabelas a seguir mostram os modelos para os quais a SageMaker IA oferece suporte à otimização de inferência e mostram as técnicas de otimização suportadas.

Modelos Llama compatíveis
Nome do modelo	Formatos de dados suportados para quantização	Suporta decodificação especulativa	Suporta carregamento rápido de modelos	Bibliotecas usadas para compilação
Meta Llama 2 13B	INT4-AWQ INT8-SmoothQuant FP8	Sim	Sim	AWS Neurônio TensorRT-LLM
Meta Llama 2 13B Chat	INT4-AWQ INT8-SmoothQuant FP8	Sim	Sim	AWS Neurônio TensorRT-LLM
Meta Llama 2 70B	INT4-AWQ INT8-SmoothQuant FP8	Sim	Sim	AWS Neurônio TensorRT-LLM
Meta Llama 2 70B Chat	INT4-AWQ INT8-SmoothQuant FP8	Sim	Sim	AWS Neurônio TensorRT-LLM
Metal Llama 2 7B	INT4-AWQ INT8-SmoothQuant FP8	Sim	Sim	AWS Neurônio TensorRT-LLM
Meta Llama 2 7B Chat	INT4-AWQ INT8-SmoothQuant FP8	Sim	Sim	AWS Neurônio TensorRT-LLM
Metal Llama 3 70B	INT4-AWQ INT8-SmoothQuant FP8	Sim	Sim	AWS Neurônio TensorRT-LLM
Meta Llama 3 70B Instruct	INT4-AWQ INT8-SmoothQuant FP8	Sim	Sim	AWS Neurônio TensorRT-LLM
Metal Llama 3 8B	INT4-AWQ INT8-SmoothQuant FP8	Sim	Sim	AWS Neurônio TensorRT-LLM
Meta Llama 3 8B Instruct	INT4-AWQ INT8-SmoothQuant FP8	Sim	Sim	AWS Neurônio TensorRT-LLM
Meta Código Llama 13B	INT4-AWQ INT8-SmoothQuant FP8	Sim	Sim	TensorRT-LLM
Meta Code Llama 13B Instruct	INT4-AWQ INT8-SmoothQuant FP8	Sim	Sim	TensorRT-LLM
Meta Código Llama 13B Python	INT4-AWQ INT8-SmoothQuant FP8	Sim	Sim	TensorRT-LLM
Meta Código Llama 34B	INT4-AWQ INT8-SmoothQuant FP8	Sim	Sim	TensorRT-LLM
Meta Code Llama 34B Instruct	INT4-AWQ INT8-SmoothQuant FP8	Sim	Sim	TensorRT-LLM
Meta Código Llama 34B Python	INT4-AWQ INT8-SmoothQuant FP8	Sim	Sim	TensorRT-LLM
Meta Código Llama 70B	INT4-AWQ INT8-SmoothQuant FP8	Sim	Sim	TensorRT-LLM
Meta Code Llama 70B Instruct	INT4-AWQ INT8-SmoothQuant FP8	Sim	Sim	TensorRT-LLM
Meta Código Llama 70B Python	INT4-AWQ INT8-SmoothQuant FP8	Sim	Sim	TensorRT-LLM
Meta Código Llama 7B	INT4-AWQ INT8-SmoothQuant FP8	Sim	Sim	TensorRT-LLM
Meta Code Llama 7B Instruct	INT4-AWQ INT8-SmoothQuant FP8	Sim	Sim	TensorRT-LLM
Meta Código Llama 7B Python	INT4-AWQ INT8-SmoothQuant FP8	Sim	Sim	TensorRT-LLM
Neurônio Meta Llama 2 13B	Nenhum	Não	Não	AWS Neurônio
Neurônio de bate-papo Meta Llama 2 13B	Nenhum	Não	Não	AWS Neurônio
Neurônio Meta Llama 2 70B	Nenhum	Não	Não	AWS Neurônio
Neurônio de bate-papo Meta Llama 2 70B	Nenhum	Não	Não	AWS Neurônio
Neurônio Meta Llama 2 7B	Nenhum	Não	Não	AWS Neurônio
Neurônio de bate-papo Meta Llama 2 7B	Nenhum	Não	Não	AWS Neurônio
Neurônio Meta Llama 3 70B	Nenhum	Não	Não	AWS Neurônio
Meta Llama 3 70B instrui o neurônio	Nenhum	Não	Não	AWS Neurônio
Neurônio Meta Llama 3 8B	Nenhum	Não	Não	AWS Neurônio
Meta Llama 3 8B instrui o neurônio	Nenhum	Não	Não	AWS Neurônio
Meta-código Llama 70B: neurônio	Nenhum	Não	Não	AWS Neurônio
Metacódigo Llama 7B: neurônio	Nenhum	Não	Não	AWS Neurônio
Metacódigo Llama 7B Python Neuron	Nenhum	Não	Não	AWS Neurônio
Metal Llama 3.1 405B FP8	Nenhum	Sim	Sim	Nenhum
Instrução Meta Llama 3.1 405B FP8	Nenhum	Sim	Sim	Nenhum
Metal Llama 3.1 70B	INT4-AWQ FP8	Sim	Sim	Nenhum
Meta Llama 3.1 70B Instruct	INT4-AWQ FP8	Sim	Sim	Nenhum
Metal Llama 3.1 8B	INT4-AWQ FP8	Sim	Sim	Nenhum
Instrução Meta Llama 3.1 8B	INT4-AWQ FP8	Sim	Sim	Nenhum
Metal Llama 3.1, neurônio 70B	Nenhum	Não	Não	AWS Neurônio
Meta Llama 3.1 70B instrui o neurônio	Nenhum	Não	Não	AWS Neurônio
Metal Llama 3 1 8B Neurônio	Nenhum	Não	Não	AWS Neurônio
Meta Llama 3.1 8B instrui o neurônio	Nenhum	Não	Não	AWS Neurônio

Modelos Mistral compatíveis
Nome do modelo	Formatos de dados suportados para quantização	Suporta decodificação especulativa	Suporta carregamento rápido de modelos	Bibliotecas usadas para compilação
Mistral 7B	INT4-AWQ INT8-SmoothQuant FP8	Sim	Sim	AWS Neurônio TensorRT-LLM
Mistral 7B Instruct	INT4-AWQ INT8-SmoothQuant FP8	Sim	Sim	AWS Neurônio TensorRT-LLM
Neurônio Mistral 7B	Nenhum	Não	Não	AWS Neurônio
Mistral 7B Instruct Neuron	Nenhum	Não	Não	AWS Neurônio

Modelos Mixtral compatíveis
Nome do modelo	Formatos de dados suportados para quantização	Suporta decodificação especulativa	Suporta carregamento rápido de modelos	Bibliotecas usadas para compilação
Mixtral-8x22B-Instruct-V0.1	INT4-AWQ INT8-SmoothQuant FP8	Sim	Sim	TensorRT-LLM
Mixtral-8x22B V1	INT4-AWQ INT8-SmoothQuant FP8	Sim	Sim	TensorRT-LLM
Mixtral 8x7B	INT4-AWQ INT8-SmoothQuant FP8	Sim	Sim	TensorRT-LLM
Mixtral 8x7B Instruct	INT4-AWQ INT8-SmoothQuant FP8	Sim	Sim	TensorRT-LLM

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Avalie o desempenho

Opções para avaliar seu modelo