Referenz unterstützter Modelle - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Referenz unterstützter Modelle

Die folgenden Tabellen zeigen die Modelle, für die SageMaker KI die Inferenzoptimierung unterstützt, und sie zeigen die unterstützten Optimierungstechniken.

Unterstützte Lama-Modelle
Modellname Unterstützte Datenformate für die Quantisierung Unterstützt spekulative Dekodierung Unterstützt schnelles Laden von Modellen Für die Kompilierung verwendete Bibliotheken
Meta Llama 2 13B

INT4-AWQ

INT8-SmoothQuant

FP8

Ja Ja

AWS Neuron

Tensor RT-LLM

Meta Lama 2 13B Chat

INT4-AWQ

INT8-SmoothQuant

FP8

Ja Ja

AWS Neuron

Tensor RT-LLM

Meta Llama 2 70B

INT4-AWQ

INT8-SmoothQuant

FP8

Ja Ja

AWS Neuron

Tensor RT-LLM

Meta Lama 2 70B Chat

INT4-AWQ

INT8-SmoothQuant

FP8

Ja Ja

AWS Neuron

Tensor RT-LLM

Metalllama 2 7B

INT4-AWQ

INT8-SmoothQuant

FP8

Ja Ja

AWS Neuron

Tensor RT-LLM

Meta Lama 2 7B Chat

INT4-AWQ

INT8-SmoothQuant

FP8

Ja Ja

AWS Neuron

Tensor RT-LLM

Meta Lama 3 70B

INT4-AWQ

INT8-SmoothQuant

FP8

Ja Ja

AWS Neuron

Tensor RT-LLM

Meta Llama 3 70B Instruktor

INT4-AWQ

INT8-SmoothQuant

FP8

Ja Ja

AWS Neuron

Tensor RT-LLM

Meta Lama 3 8B

INT4-AWQ

INT8-SmoothQuant

FP8

Ja Ja

AWS Neuron

Tensor RT-LLM

Meta Llama 3 8B Instruktor

INT4-AWQ

INT8-SmoothQuant

FP8

Ja Ja

AWS Neuron

Tensor RT-LLM

Metacode-Lama 13B

INT4-AWQ

INT8-SmoothQuant

FP8

Ja Ja

Tensor RT-LLM

Metacode Llama 13B Instruktor

INT4-AWQ

INT8-SmoothQuant

FP8

Ja Ja

Tensor RT-LLM

Metacode Lama 13B Python

INT4-AWQ

INT8-SmoothQuant

FP8

Ja Ja

Tensor RT-LLM

Metacode Llama 34B

INT4-AWQ

INT8-SmoothQuant

FP8

Ja Ja

Tensor RT-LLM

Metacode Llama 34B Instruktor

INT4-AWQ

INT8-SmoothQuant

FP8

Ja Ja

Tensor RT-LLM

Metacode-Lama 34B Python

INT4-AWQ

INT8-SmoothQuant

FP8

Ja Ja

Tensor RT-LLM

Metacode Llama 70B

INT4-AWQ

INT8-SmoothQuant

FP8

Ja Ja

Tensor RT-LLM

Metacode Llama 70B Instruktor

INT4-AWQ

INT8-SmoothQuant

FP8

Ja Ja

Tensor RT-LLM

Metacode Lama 70B Python

INT4-AWQ

INT8-SmoothQuant

FP8

Ja Ja

Tensor RT-LLM

Metacode-Lama 7B

INT4-AWQ

INT8-SmoothQuant

FP8

Ja Ja

Tensor RT-LLM

Metacode Llama 7B Instruktor

INT4-AWQ

INT8-SmoothQuant

FP8

Ja Ja

Tensor RT-LLM

Metacode Lama 7B Python

INT4-AWQ

INT8-SmoothQuant

FP8

Ja Ja

Tensor RT-LLM

Meta Lama 2 13B Neuron Keine Nein Nein

AWS Neuron

Meta Llama 2 13B Chat-Neuron Keine Nein Nein

AWS Neuron

Meta Llama 2 70B Neuron Keine Nein Nein

AWS Neuron

Meta Llama 2 70B Chat-Neuron Keine Nein Nein

AWS Neuron

Meta Llama 2 7B Neuron Keine Nein Nein

AWS Neuron

Meta Llama 2 7B Chat-Neuron Keine Nein Nein

AWS Neuron

Meta Lama 3 70B Neuron Keine Nein Nein

AWS Neuron

Meta Llama 3 70B Neuron anweisen Keine Nein Nein

AWS Neuron

Meta Lama 3 8B Neuron Keine Nein Nein

AWS Neuron

Meta Llama 3 8B Neuron anweisen Keine Nein Nein

AWS Neuron

Metacode-Lama 70B Neuron Keine Nein Nein

AWS Neuron

Metacode-Lama 7B Neuron Keine Nein Nein

AWS Neuron

Metacode-Lama 7B Python-Neuron Keine Nein Nein

AWS Neuron

Meta Lama 3.1 405B FP8 Keine Ja Ja

Keine

Meta Llama 3.1 405B Einweisen FP8 Keine Ja Ja

Keine

Meta Lama 3.1 70B

INT4-AWQ

FP8

Ja Ja

Keine

Meta Llama 3.1 70B Instruktor

INT4-AWQ

FP8

Ja Ja

Keine

Meta Lama 3.1 8B

INT4-AWQ

FP8

Ja Ja

Keine

Meta Llama 3.1 8B Instruktor

INT4-AWQ

FP8

Ja Ja

Keine

Meta Lama 3.1 70B Neuron Keine Nein Nein

AWS Neuron

Meta Lama 3.1 70B Neuron anweisen Keine Nein Nein

AWS Neuron

Meta Lama 3 1 8B Neuron Keine Nein Nein

AWS Neuron

Meta Lama 3.1 8B Neuron anweisen Keine Nein Nein

AWS Neuron

Unterstützte Mistral-Modelle
Modellname Unterstützte Datenformate für die Quantisierung Unterstützt spekulative Dekodierung Unterstützt schnelles Laden von Modellen Für die Kompilierung verwendete Bibliotheken
Mistral 7B

INT4-AWQ

INT8-SmoothQuant

FP8

Ja Ja

AWS Neuron

Tensor RT-LLM

Mistral 7B Instruktor

INT4-AWQ

INT8-SmoothQuant

FP8

Ja Ja

AWS Neuron

Tensor RT-LLM

Mistral 7B Neuron Keine Nein Nein

AWS Neuron

Mistral 7B Neuron anweisen Keine Nein Nein

AWS Neuron

Unterstützte Mixtral-Modelle
Modellname Unterstützte Datenformate für die Quantisierung Unterstützt spekulative Dekodierung Unterstützt schnelles Laden von Modellen Für die Kompilierung verwendete Bibliotheken
Mixtral-8x22B-Instruct-v0.1

INT4-AWQ

INT8-SmoothQuant

FP8

Ja Ja

Tensor RT-LLM

Mixtral-8x22B V1

INT4-AWQ

INT8-SmoothQuant

FP8

Ja Ja

Tensor RT-LLM

Mixtral 8x7B

INT4-AWQ

INT8-SmoothQuant

FP8

Ja Ja

Tensor RT-LLM

Mixtral 8x7B instruieren

INT4-AWQ

INT8-SmoothQuant

FP8

Ja Ja

Tensor RT-LLM