Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Les tableaux suivants présentent les modèles pour lesquels l' SageMaker IA prend en charge l'optimisation par inférence, ainsi que les techniques d'optimisation prises en charge.
Nom du modèle | Formats de données pris en charge pour la quantification | Supporte le décodage spéculatif | Supporte le chargement rapide des modèles | Bibliothèques utilisées pour la compilation |
---|---|---|---|---|
Meta Llama 2 13B |
INT4-AWQ INT8-SmoothQuant FP8 |
Oui | Oui |
AWS Neurone TensorRT-LLM |
Chat Meta Llama 2 13B |
INT4-AWQ INT8-SmoothQuant FP8 |
Oui | Oui |
AWS Neurone TensorRT-LLM |
Meta Llama 2 70B |
INT4-AWQ INT8-SmoothQuant FP8 |
Oui | Oui |
AWS Neurone TensorRT-LLM |
Chat Meta Llama 2 70B |
INT4-AWQ INT8-SmoothQuant FP8 |
Oui | Oui |
AWS Neurone TensorRT-LLM |
Meta Lama 2 7B |
INT4-AWQ INT8-SmoothQuant FP8 |
Oui | Oui |
AWS Neurone TensorRT-LLM |
Chat Meta Llama 2 7B |
INT4-AWQ INT8-SmoothQuant FP8 |
Oui | Oui |
AWS Neurone TensorRT-LLM |
Meta Llama 3 70B |
INT4-AWQ INT8-SmoothQuant FP8 |
Oui | Oui |
AWS Neurone TensorRT-LLM |
Meta Llama 3 70B Instructeur |
INT4-AWQ INT8-SmoothQuant FP8 |
Oui | Oui |
AWS Neurone TensorRT-LLM |
Meta Lama 3 8B |
INT4-AWQ INT8-SmoothQuant FP8 |
Oui | Oui |
AWS Neurone TensorRT-LLM |
Meta Llama 3 8B Instructeur |
INT4-AWQ INT8-SmoothQuant FP8 |
Oui | Oui |
AWS Neurone TensorRT-LLM |
Méta-code Llama 13B |
INT4-AWQ INT8-SmoothQuant FP8 |
Oui | Oui |
TensorRT-LLM |
Méta-code Llama 13B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
Oui | Oui |
TensorRT-LLM |
Méta-code Llama 13B Python |
INT4-AWQ INT8-SmoothQuant FP8 |
Oui | Oui |
TensorRT-LLM |
Méta-code Llama 34B |
INT4-AWQ INT8-SmoothQuant FP8 |
Oui | Oui |
TensorRT-LLM |
Méta-code Llama 34B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
Oui | Oui |
TensorRT-LLM |
Méta-code Llama 34B Python |
INT4-AWQ INT8-SmoothQuant FP8 |
Oui | Oui |
TensorRT-LLM |
Lama Meta Code 70B |
INT4-AWQ INT8-SmoothQuant FP8 |
Oui | Oui |
TensorRT-LLM |
Méta-code Llama 70B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
Oui | Oui |
TensorRT-LLM |
Méta-code Llama 70B Python |
INT4-AWQ INT8-SmoothQuant FP8 |
Oui | Oui |
TensorRT-LLM |
Méta-code Llama 7B |
INT4-AWQ INT8-SmoothQuant FP8 |
Oui | Oui |
TensorRT-LLM |
Méta-code Llama 7B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
Oui | Oui |
TensorRT-LLM |
Méta-code Llama 7B Python |
INT4-AWQ INT8-SmoothQuant FP8 |
Oui | Oui |
TensorRT-LLM |
Neurone Meta Llama 2 13B | Aucun | Non | Non |
AWS Neurone |
Neurone de chat Meta Llama 2 13B | Aucun | Non | Non |
AWS Neurone |
Neurone Meta Llama 2 70B | Aucun | Non | Non |
AWS Neurone |
Neurone de chat Meta Llama 2 70B | Aucun | Non | Non |
AWS Neurone |
Neurone Meta Llama 2 7B | Aucun | Non | Non |
AWS Neurone |
Neurone de chat Meta Llama 2 7B | Aucun | Non | Non |
AWS Neurone |
Neurone Meta Llama 3 70B | Aucun | Non | Non |
AWS Neurone |
Meta Llama 3 70B Instruct Neurone | Aucun | Non | Non |
AWS Neurone |
Neurone Meta Llama 3 8B | Aucun | Non | Non |
AWS Neurone |
Meta Llama 3 8B Instruct Neurone | Aucun | Non | Non |
AWS Neurone |
Méta-code Llama 70B Neuron | Aucun | Non | Non |
AWS Neurone |
Méta-code Llama 7B Neuron | Aucun | Non | Non |
AWS Neurone |
Méta-code Llama 7B Python Neuron | Aucun | Non | Non |
AWS Neurone |
Meta Llama 3.1 405B FP8 | Aucun | Oui | Oui |
Aucun |
Meta Llama 3.1 405B Instruire FP8 | Aucun | Oui | Oui |
Aucun |
Meta Llama 3.1 70B |
INT4-AWQ FP8 |
Oui | Oui |
Aucun |
Meta Llama 3.1 70B Instruct |
INT4-AWQ FP8 |
Oui | Oui |
Aucun |
Meta Lama 3.1 8B |
INT4-AWQ FP8 |
Oui | Oui |
Aucun |
Meta Llama 3.1 8B Instruct |
INT4-AWQ FP8 |
Oui | Oui |
Aucun |
Neurone Meta Llama 3.1 70B | Aucun | Non | Non |
AWS Neurone |
Meta Llama 3.1 70B Instruct Neurone | Aucun | Non | Non |
AWS Neurone |
Méta-lama 3 1 8B Neurone | Aucun | Non | Non |
AWS Neurone |
Meta Llama 3.1 8B Instruct Neurone | Aucun | Non | Non |
AWS Neurone |
Nom du modèle | Formats de données pris en charge pour la quantification | Supporte le décodage spéculatif | Supporte le chargement rapide des modèles | Bibliothèques utilisées pour la compilation |
---|---|---|---|---|
Mistral 7B |
INT4-AWQ INT8-SmoothQuant FP8 |
Oui | Oui |
AWS Neurone TensorRT-LLM |
Mistral 7B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
Oui | Oui |
AWS Neurone TensorRT-LLM |
Neurone Mistral 7B | Aucun | Non | Non |
AWS Neurone |
Mistral 7B Instruct Neurone | Aucun | Non | Non |
AWS Neurone |
Nom du modèle | Formats de données pris en charge pour la quantification | Supporte le décodage spéculatif | Supporte le chargement rapide des modèles | Bibliothèques utilisées pour la compilation |
---|---|---|---|---|
Mixtral-8X22B-Instruct-v0.1 |
INT4-AWQ INT8-SmoothQuant FP8 |
Oui | Oui |
TensorRT-LLM |
Mixtral-8 x 22B V1 |
INT4-AWQ INT8-SmoothQuant FP8 |
Oui | Oui |
TensorRT-LLM |
Mixtral 8 x 7 V |
INT4-AWQ INT8-SmoothQuant FP8 |
Oui | Oui |
TensorRT-LLM |
Mixtral 8x7B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
Oui | Oui |
TensorRT-LLM |