Referenz unterstützter Modelle

Die folgenden Tabellen zeigen die Modelle, für die SageMaker KI die Inferenzoptimierung unterstützt, und sie zeigen die unterstützten Optimierungstechniken.

Unterstützte Lama-Modelle
Modellname	Unterstützte Datenformate für die Quantisierung	Unterstützt spekulative Dekodierung	Unterstützt schnelles Laden von Modellen	Für die Kompilierung verwendete Bibliotheken
Meta Llama 2 13B	INT4-AWQ INT8-SmoothQuant FP8	Ja	Ja	AWS Neuron Tensor RT-LLM
Meta Lama 2 13B Chat	INT4-AWQ INT8-SmoothQuant FP8	Ja	Ja	AWS Neuron Tensor RT-LLM
Meta Llama 2 70B	INT4-AWQ INT8-SmoothQuant FP8	Ja	Ja	AWS Neuron Tensor RT-LLM
Meta Lama 2 70B Chat	INT4-AWQ INT8-SmoothQuant FP8	Ja	Ja	AWS Neuron Tensor RT-LLM
Metalllama 2 7B	INT4-AWQ INT8-SmoothQuant FP8	Ja	Ja	AWS Neuron Tensor RT-LLM
Meta Lama 2 7B Chat	INT4-AWQ INT8-SmoothQuant FP8	Ja	Ja	AWS Neuron Tensor RT-LLM
Meta Lama 3 70B	INT4-AWQ INT8-SmoothQuant FP8	Ja	Ja	AWS Neuron Tensor RT-LLM
Meta Llama 3 70B Instruktor	INT4-AWQ INT8-SmoothQuant FP8	Ja	Ja	AWS Neuron Tensor RT-LLM
Meta Lama 3 8B	INT4-AWQ INT8-SmoothQuant FP8	Ja	Ja	AWS Neuron Tensor RT-LLM
Meta Llama 3 8B Instruktor	INT4-AWQ INT8-SmoothQuant FP8	Ja	Ja	AWS Neuron Tensor RT-LLM
Metacode-Lama 13B	INT4-AWQ INT8-SmoothQuant FP8	Ja	Ja	Tensor RT-LLM
Metacode Llama 13B Instruktor	INT4-AWQ INT8-SmoothQuant FP8	Ja	Ja	Tensor RT-LLM
Metacode Lama 13B Python	INT4-AWQ INT8-SmoothQuant FP8	Ja	Ja	Tensor RT-LLM
Metacode Llama 34B	INT4-AWQ INT8-SmoothQuant FP8	Ja	Ja	Tensor RT-LLM
Metacode Llama 34B Instruktor	INT4-AWQ INT8-SmoothQuant FP8	Ja	Ja	Tensor RT-LLM
Metacode-Lama 34B Python	INT4-AWQ INT8-SmoothQuant FP8	Ja	Ja	Tensor RT-LLM
Metacode Llama 70B	INT4-AWQ INT8-SmoothQuant FP8	Ja	Ja	Tensor RT-LLM
Metacode Llama 70B Instruktor	INT4-AWQ INT8-SmoothQuant FP8	Ja	Ja	Tensor RT-LLM
Metacode Lama 70B Python	INT4-AWQ INT8-SmoothQuant FP8	Ja	Ja	Tensor RT-LLM
Metacode-Lama 7B	INT4-AWQ INT8-SmoothQuant FP8	Ja	Ja	Tensor RT-LLM
Metacode Llama 7B Instruktor	INT4-AWQ INT8-SmoothQuant FP8	Ja	Ja	Tensor RT-LLM
Metacode Lama 7B Python	INT4-AWQ INT8-SmoothQuant FP8	Ja	Ja	Tensor RT-LLM
Meta Lama 2 13B Neuron	Keine	Nein	Nein	AWS Neuron
Meta Llama 2 13B Chat-Neuron	Keine	Nein	Nein	AWS Neuron
Meta Llama 2 70B Neuron	Keine	Nein	Nein	AWS Neuron
Meta Llama 2 70B Chat-Neuron	Keine	Nein	Nein	AWS Neuron
Meta Llama 2 7B Neuron	Keine	Nein	Nein	AWS Neuron
Meta Llama 2 7B Chat-Neuron	Keine	Nein	Nein	AWS Neuron
Meta Lama 3 70B Neuron	Keine	Nein	Nein	AWS Neuron
Meta Llama 3 70B Neuron anweisen	Keine	Nein	Nein	AWS Neuron
Meta Lama 3 8B Neuron	Keine	Nein	Nein	AWS Neuron
Meta Llama 3 8B Neuron anweisen	Keine	Nein	Nein	AWS Neuron
Metacode-Lama 70B Neuron	Keine	Nein	Nein	AWS Neuron
Metacode-Lama 7B Neuron	Keine	Nein	Nein	AWS Neuron
Metacode-Lama 7B Python-Neuron	Keine	Nein	Nein	AWS Neuron
Meta Lama 3.1 405B FP8	Keine	Ja	Ja	Keine
Meta Llama 3.1 405B Einweisen FP8	Keine	Ja	Ja	Keine
Meta Lama 3.1 70B	INT4-AWQ FP8	Ja	Ja	Keine
Meta Llama 3.1 70B Instruktor	INT4-AWQ FP8	Ja	Ja	Keine
Meta Lama 3.1 8B	INT4-AWQ FP8	Ja	Ja	Keine
Meta Llama 3.1 8B Instruktor	INT4-AWQ FP8	Ja	Ja	Keine
Meta Lama 3.1 70B Neuron	Keine	Nein	Nein	AWS Neuron
Meta Lama 3.1 70B Neuron anweisen	Keine	Nein	Nein	AWS Neuron
Meta Lama 3 1 8B Neuron	Keine	Nein	Nein	AWS Neuron
Meta Lama 3.1 8B Neuron anweisen	Keine	Nein	Nein	AWS Neuron

Unterstützte Mistral-Modelle
Modellname	Unterstützte Datenformate für die Quantisierung	Unterstützt spekulative Dekodierung	Unterstützt schnelles Laden von Modellen	Für die Kompilierung verwendete Bibliotheken
Mistral 7B	INT4-AWQ INT8-SmoothQuant FP8	Ja	Ja	AWS Neuron Tensor RT-LLM
Mistral 7B Instruktor	INT4-AWQ INT8-SmoothQuant FP8	Ja	Ja	AWS Neuron Tensor RT-LLM
Mistral 7B Neuron	Keine	Nein	Nein	AWS Neuron
Mistral 7B Neuron anweisen	Keine	Nein	Nein	AWS Neuron

Unterstützte Mixtral-Modelle
Modellname	Unterstützte Datenformate für die Quantisierung	Unterstützt spekulative Dekodierung	Unterstützt schnelles Laden von Modellen	Für die Kompilierung verwendete Bibliotheken
Mixtral-8x22B-Instruct-v0.1	INT4-AWQ INT8-SmoothQuant FP8	Ja	Ja	Tensor RT-LLM
Mixtral-8x22B V1	INT4-AWQ INT8-SmoothQuant FP8	Ja	Ja	Tensor RT-LLM
Mixtral 8x7B	INT4-AWQ INT8-SmoothQuant FP8	Ja	Ja	Tensor RT-LLM
Mixtral 8x7B instruieren	INT4-AWQ INT8-SmoothQuant FP8	Ja	Ja	Tensor RT-LLM

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Bewerten Sie die Leistung

Optionen für die Bewertung Ihres Modells