Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Referenz unterstützter Modelle
Die folgenden Tabellen zeigen die Modelle, für die SageMaker KI die Inferenzoptimierung unterstützt, und sie zeigen die unterstützten Optimierungstechniken.
Modellname | Unterstützte Datenformate für die Quantisierung | Unterstützt spekulative Dekodierung | Unterstützt schnelles Laden von Modellen | Für die Kompilierung verwendete Bibliotheken |
---|---|---|---|---|
Meta Llama 2 13B |
INT4-AWQ INT8-SmoothQuant FP8 |
Ja | Ja |
AWS Neuron Tensor RT-LLM |
Meta Lama 2 13B Chat |
INT4-AWQ INT8-SmoothQuant FP8 |
Ja | Ja |
AWS Neuron Tensor RT-LLM |
Meta Llama 2 70B |
INT4-AWQ INT8-SmoothQuant FP8 |
Ja | Ja |
AWS Neuron Tensor RT-LLM |
Meta Lama 2 70B Chat |
INT4-AWQ INT8-SmoothQuant FP8 |
Ja | Ja |
AWS Neuron Tensor RT-LLM |
Metalllama 2 7B |
INT4-AWQ INT8-SmoothQuant FP8 |
Ja | Ja |
AWS Neuron Tensor RT-LLM |
Meta Lama 2 7B Chat |
INT4-AWQ INT8-SmoothQuant FP8 |
Ja | Ja |
AWS Neuron Tensor RT-LLM |
Meta Lama 3 70B |
INT4-AWQ INT8-SmoothQuant FP8 |
Ja | Ja |
AWS Neuron Tensor RT-LLM |
Meta Llama 3 70B Instruktor |
INT4-AWQ INT8-SmoothQuant FP8 |
Ja | Ja |
AWS Neuron Tensor RT-LLM |
Meta Lama 3 8B |
INT4-AWQ INT8-SmoothQuant FP8 |
Ja | Ja |
AWS Neuron Tensor RT-LLM |
Meta Llama 3 8B Instruktor |
INT4-AWQ INT8-SmoothQuant FP8 |
Ja | Ja |
AWS Neuron Tensor RT-LLM |
Metacode-Lama 13B |
INT4-AWQ INT8-SmoothQuant FP8 |
Ja | Ja |
Tensor RT-LLM |
Metacode Llama 13B Instruktor |
INT4-AWQ INT8-SmoothQuant FP8 |
Ja | Ja |
Tensor RT-LLM |
Metacode Lama 13B Python |
INT4-AWQ INT8-SmoothQuant FP8 |
Ja | Ja |
Tensor RT-LLM |
Metacode Llama 34B |
INT4-AWQ INT8-SmoothQuant FP8 |
Ja | Ja |
Tensor RT-LLM |
Metacode Llama 34B Instruktor |
INT4-AWQ INT8-SmoothQuant FP8 |
Ja | Ja |
Tensor RT-LLM |
Metacode-Lama 34B Python |
INT4-AWQ INT8-SmoothQuant FP8 |
Ja | Ja |
Tensor RT-LLM |
Metacode Llama 70B |
INT4-AWQ INT8-SmoothQuant FP8 |
Ja | Ja |
Tensor RT-LLM |
Metacode Llama 70B Instruktor |
INT4-AWQ INT8-SmoothQuant FP8 |
Ja | Ja |
Tensor RT-LLM |
Metacode Lama 70B Python |
INT4-AWQ INT8-SmoothQuant FP8 |
Ja | Ja |
Tensor RT-LLM |
Metacode-Lama 7B |
INT4-AWQ INT8-SmoothQuant FP8 |
Ja | Ja |
Tensor RT-LLM |
Metacode Llama 7B Instruktor |
INT4-AWQ INT8-SmoothQuant FP8 |
Ja | Ja |
Tensor RT-LLM |
Metacode Lama 7B Python |
INT4-AWQ INT8-SmoothQuant FP8 |
Ja | Ja |
Tensor RT-LLM |
Meta Lama 2 13B Neuron | Keine | Nein | Nein |
AWS Neuron |
Meta Llama 2 13B Chat-Neuron | Keine | Nein | Nein |
AWS Neuron |
Meta Llama 2 70B Neuron | Keine | Nein | Nein |
AWS Neuron |
Meta Llama 2 70B Chat-Neuron | Keine | Nein | Nein |
AWS Neuron |
Meta Llama 2 7B Neuron | Keine | Nein | Nein |
AWS Neuron |
Meta Llama 2 7B Chat-Neuron | Keine | Nein | Nein |
AWS Neuron |
Meta Lama 3 70B Neuron | Keine | Nein | Nein |
AWS Neuron |
Meta Llama 3 70B Neuron anweisen | Keine | Nein | Nein |
AWS Neuron |
Meta Lama 3 8B Neuron | Keine | Nein | Nein |
AWS Neuron |
Meta Llama 3 8B Neuron anweisen | Keine | Nein | Nein |
AWS Neuron |
Metacode-Lama 70B Neuron | Keine | Nein | Nein |
AWS Neuron |
Metacode-Lama 7B Neuron | Keine | Nein | Nein |
AWS Neuron |
Metacode-Lama 7B Python-Neuron | Keine | Nein | Nein |
AWS Neuron |
Meta Lama 3.1 405B FP8 | Keine | Ja | Ja |
Keine |
Meta Llama 3.1 405B Einweisen FP8 | Keine | Ja | Ja |
Keine |
Meta Lama 3.1 70B |
INT4-AWQ FP8 |
Ja | Ja |
Keine |
Meta Llama 3.1 70B Instruktor |
INT4-AWQ FP8 |
Ja | Ja |
Keine |
Meta Lama 3.1 8B |
INT4-AWQ FP8 |
Ja | Ja |
Keine |
Meta Llama 3.1 8B Instruktor |
INT4-AWQ FP8 |
Ja | Ja |
Keine |
Meta Lama 3.1 70B Neuron | Keine | Nein | Nein |
AWS Neuron |
Meta Lama 3.1 70B Neuron anweisen | Keine | Nein | Nein |
AWS Neuron |
Meta Lama 3 1 8B Neuron | Keine | Nein | Nein |
AWS Neuron |
Meta Lama 3.1 8B Neuron anweisen | Keine | Nein | Nein |
AWS Neuron |
Modellname | Unterstützte Datenformate für die Quantisierung | Unterstützt spekulative Dekodierung | Unterstützt schnelles Laden von Modellen | Für die Kompilierung verwendete Bibliotheken |
---|---|---|---|---|
Mistral 7B |
INT4-AWQ INT8-SmoothQuant FP8 |
Ja | Ja |
AWS Neuron Tensor RT-LLM |
Mistral 7B Instruktor |
INT4-AWQ INT8-SmoothQuant FP8 |
Ja | Ja |
AWS Neuron Tensor RT-LLM |
Mistral 7B Neuron | Keine | Nein | Nein |
AWS Neuron |
Mistral 7B Neuron anweisen | Keine | Nein | Nein |
AWS Neuron |
Modellname | Unterstützte Datenformate für die Quantisierung | Unterstützt spekulative Dekodierung | Unterstützt schnelles Laden von Modellen | Für die Kompilierung verwendete Bibliotheken |
---|---|---|---|---|
Mixtral-8x22B-Instruct-v0.1 |
INT4-AWQ INT8-SmoothQuant FP8 |
Ja | Ja |
Tensor RT-LLM |
Mixtral-8x22B V1 |
INT4-AWQ INT8-SmoothQuant FP8 |
Ja | Ja |
Tensor RT-LLM |
Mixtral 8x7B |
INT4-AWQ INT8-SmoothQuant FP8 |
Ja | Ja |
Tensor RT-LLM |
Mixtral 8x7B instruieren |
INT4-AWQ INT8-SmoothQuant FP8 |
Ja | Ja |
Tensor RT-LLM |