Sélectionner vos préférences de cookies

Nous utilisons des cookies essentiels et des outils similaires qui sont nécessaires au fonctionnement de notre site et à la fourniture de nos services. Nous utilisons des cookies de performance pour collecter des statistiques anonymes afin de comprendre comment les clients utilisent notre site et d’apporter des améliorations. Les cookies essentiels ne peuvent pas être désactivés, mais vous pouvez cliquer sur « Personnaliser » ou « Refuser » pour refuser les cookies de performance.

Si vous êtes d’accord, AWS et les tiers approuvés utiliseront également des cookies pour fournir des fonctionnalités utiles au site, mémoriser vos préférences et afficher du contenu pertinent, y compris des publicités pertinentes. Pour accepter ou refuser tous les cookies non essentiels, cliquez sur « Accepter » ou « Refuser ». Pour effectuer des choix plus détaillés, cliquez sur « Personnaliser ».

Référence des modèles pris en charge

Mode de mise au point
Référence des modèles pris en charge - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Les tableaux suivants présentent les modèles pour lesquels l' SageMaker IA prend en charge l'optimisation par inférence, ainsi que les techniques d'optimisation prises en charge.

Modèles de lamas pris en charge
Nom du modèle Formats de données pris en charge pour la quantification Supporte le décodage spéculatif Supporte le chargement rapide des modèles Bibliothèques utilisées pour la compilation
Meta Llama 2 13B

INT4-AWQ

INT8-SmoothQuant

FP8

Oui Oui

AWS Neurone

TensorRT-LLM

Chat Meta Llama 2 13B

INT4-AWQ

INT8-SmoothQuant

FP8

Oui Oui

AWS Neurone

TensorRT-LLM

Meta Llama 2 70B

INT4-AWQ

INT8-SmoothQuant

FP8

Oui Oui

AWS Neurone

TensorRT-LLM

Chat Meta Llama 2 70B

INT4-AWQ

INT8-SmoothQuant

FP8

Oui Oui

AWS Neurone

TensorRT-LLM

Meta Lama 2 7B

INT4-AWQ

INT8-SmoothQuant

FP8

Oui Oui

AWS Neurone

TensorRT-LLM

Chat Meta Llama 2 7B

INT4-AWQ

INT8-SmoothQuant

FP8

Oui Oui

AWS Neurone

TensorRT-LLM

Meta Llama 3 70B

INT4-AWQ

INT8-SmoothQuant

FP8

Oui Oui

AWS Neurone

TensorRT-LLM

Meta Llama 3 70B Instructeur

INT4-AWQ

INT8-SmoothQuant

FP8

Oui Oui

AWS Neurone

TensorRT-LLM

Meta Lama 3 8B

INT4-AWQ

INT8-SmoothQuant

FP8

Oui Oui

AWS Neurone

TensorRT-LLM

Meta Llama 3 8B Instructeur

INT4-AWQ

INT8-SmoothQuant

FP8

Oui Oui

AWS Neurone

TensorRT-LLM

Méta-code Llama 13B

INT4-AWQ

INT8-SmoothQuant

FP8

Oui Oui

TensorRT-LLM

Méta-code Llama 13B Instruct

INT4-AWQ

INT8-SmoothQuant

FP8

Oui Oui

TensorRT-LLM

Méta-code Llama 13B Python

INT4-AWQ

INT8-SmoothQuant

FP8

Oui Oui

TensorRT-LLM

Méta-code Llama 34B

INT4-AWQ

INT8-SmoothQuant

FP8

Oui Oui

TensorRT-LLM

Méta-code Llama 34B Instruct

INT4-AWQ

INT8-SmoothQuant

FP8

Oui Oui

TensorRT-LLM

Méta-code Llama 34B Python

INT4-AWQ

INT8-SmoothQuant

FP8

Oui Oui

TensorRT-LLM

Lama Meta Code 70B

INT4-AWQ

INT8-SmoothQuant

FP8

Oui Oui

TensorRT-LLM

Méta-code Llama 70B Instruct

INT4-AWQ

INT8-SmoothQuant

FP8

Oui Oui

TensorRT-LLM

Méta-code Llama 70B Python

INT4-AWQ

INT8-SmoothQuant

FP8

Oui Oui

TensorRT-LLM

Méta-code Llama 7B

INT4-AWQ

INT8-SmoothQuant

FP8

Oui Oui

TensorRT-LLM

Méta-code Llama 7B Instruct

INT4-AWQ

INT8-SmoothQuant

FP8

Oui Oui

TensorRT-LLM

Méta-code Llama 7B Python

INT4-AWQ

INT8-SmoothQuant

FP8

Oui Oui

TensorRT-LLM

Neurone Meta Llama 2 13B Aucun Non Non

AWS Neurone

Neurone de chat Meta Llama 2 13B Aucun Non Non

AWS Neurone

Neurone Meta Llama 2 70B Aucun Non Non

AWS Neurone

Neurone de chat Meta Llama 2 70B Aucun Non Non

AWS Neurone

Neurone Meta Llama 2 7B Aucun Non Non

AWS Neurone

Neurone de chat Meta Llama 2 7B Aucun Non Non

AWS Neurone

Neurone Meta Llama 3 70B Aucun Non Non

AWS Neurone

Meta Llama 3 70B Instruct Neurone Aucun Non Non

AWS Neurone

Neurone Meta Llama 3 8B Aucun Non Non

AWS Neurone

Meta Llama 3 8B Instruct Neurone Aucun Non Non

AWS Neurone

Méta-code Llama 70B Neuron Aucun Non Non

AWS Neurone

Méta-code Llama 7B Neuron Aucun Non Non

AWS Neurone

Méta-code Llama 7B Python Neuron Aucun Non Non

AWS Neurone

Meta Llama 3.1 405B FP8 Aucun Oui Oui

Aucun

Meta Llama 3.1 405B Instruire FP8 Aucun Oui Oui

Aucun

Meta Llama 3.1 70B

INT4-AWQ

FP8

Oui Oui

Aucun

Meta Llama 3.1 70B Instruct

INT4-AWQ

FP8

Oui Oui

Aucun

Meta Lama 3.1 8B

INT4-AWQ

FP8

Oui Oui

Aucun

Meta Llama 3.1 8B Instruct

INT4-AWQ

FP8

Oui Oui

Aucun

Neurone Meta Llama 3.1 70B Aucun Non Non

AWS Neurone

Meta Llama 3.1 70B Instruct Neurone Aucun Non Non

AWS Neurone

Méta-lama 3 1 8B Neurone Aucun Non Non

AWS Neurone

Meta Llama 3.1 8B Instruct Neurone Aucun Non Non

AWS Neurone

Modèles Mistral pris en charge
Nom du modèle Formats de données pris en charge pour la quantification Supporte le décodage spéculatif Supporte le chargement rapide des modèles Bibliothèques utilisées pour la compilation
Mistral 7B

INT4-AWQ

INT8-SmoothQuant

FP8

Oui Oui

AWS Neurone

TensorRT-LLM

Mistral 7B Instruct

INT4-AWQ

INT8-SmoothQuant

FP8

Oui Oui

AWS Neurone

TensorRT-LLM

Neurone Mistral 7B Aucun Non Non

AWS Neurone

Mistral 7B Instruct Neurone Aucun Non Non

AWS Neurone

Modèles Mixtral pris en charge
Nom du modèle Formats de données pris en charge pour la quantification Supporte le décodage spéculatif Supporte le chargement rapide des modèles Bibliothèques utilisées pour la compilation
Mixtral-8X22B-Instruct-v0.1

INT4-AWQ

INT8-SmoothQuant

FP8

Oui Oui

TensorRT-LLM

Mixtral-8 x 22B V1

INT4-AWQ

INT8-SmoothQuant

FP8

Oui Oui

TensorRT-LLM

Mixtral 8 x 7 V

INT4-AWQ

INT8-SmoothQuant

FP8

Oui Oui

TensorRT-LLM

Mixtral 8x7B Instruct

INT4-AWQ

INT8-SmoothQuant

FP8

Oui Oui

TensorRT-LLM

ConfidentialitéConditions d'utilisation du sitePréférences de cookies
© 2025, Amazon Web Services, Inc. ou ses affiliés. Tous droits réservés.