Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Funktionen des Inferenzcontainers
Der Amazon SageMaker Nova-Inferenzcontainer enthält eine Reihe von Funktionen, die Sie aktivieren können, um das Modellverhalten während der Inferenz anzupassen. Jede Funktion wird in einer bestimmten Container-Version eingeführt und erfordert möglicherweise Umgebungsvariablen, Anforderungsparameter oder beides, um aktiviert zu werden.
Diese Seite listet die im Inferenzcontainer verfügbaren Funktionen auf, beschreibt, wie die einzelnen Funktionen aktiviert werden, und identifiziert die Containerversion, in der die Funktion eingeführt wurde. Anhand dieser Referenz können Sie ermitteln, welche Funktionen für Ihre Bereitstellung verfügbar sind und wie Sie sie konfigurieren.
Funktionen, die über Umgebungsvariablen aktiviert werden, werden bei der Erstellung der SageMaker Modell- oder Endpunktkonfiguration festgelegt. Nehmen Sie sie in den Environment Parameter des CreateModelAPI-Aufrufs auf. Funktionen, die durch Anforderungsparameter aktiviert werden, werden pro Aufruf im Anforderungstext festgelegt.
Anmerkung
Verwenden Sie immer das neueste Container-Image, um Zugriff auf alle verfügbaren Funktionen zu erhalten. Das SM-Inference-latest Tag zeigt derzeit aufv1.4.
Übersicht der Funktionen
Die folgende Tabelle bietet eine Kurzübersicht aller Funktionen, die im Amazon SageMaker Nova-Inferenzcontainer unterstützt werden.
| Feature | Wie aktiviert man | Standard | Unterstützte Modelle | Eingeführt in |
|---|---|---|---|---|
| Standardtemperatur | Umgebungsvariable | 1.0 |
Alle Amazon Nova-Modelle | v1.0 |
| Standard-Top-p | Umgebungsvariable | 1.0 |
Alle Amazon Nova-Modelle | v1.0 |
| Die Standardeinstellung ist top-k | Umgebungsvariable | -1(deaktiviert) |
Alle Amazon Nova-Modelle | v1.0 |
| Standardmäßige maximale Anzahl neuer Tokens | Umgebungsvariable | Die maximale Kontextlänge des Modells | Alle Amazon Nova-Modelle | v1.0 |
| Standard-Logprobs | Umgebungsvariable | Disabled | Alle Amazon Nova-Modelle | v1.0 |
| Spekulative Dekodierung mit Eagle3 | Standardmäßig aktiviert. | Aktiviert | Alle Amazon Nova-Modelle | v1.0 |
| KV-Cache-Datentyp | Umgebungsvariable | Entspricht dem Modelldatentyp | Alle Amazon Nova-Modelle | v1.3 |
| Quantisierung | Umgebungsvariable | Deaktiviert* | Alle Amazon Nova-Modelle | v1.3 |
| Anzahl der spekulativen Token | Umgebungsvariable | 3 |
Alle Amazon Nova-Modelle | v1.4 |
| Dekodierung von Suffixen | Umgebungsvariable | Disabled | Alle Amazon Nova-Modelle | v1.4 |
Wichtig
* Die FP8-Quantisierung ist automatisch aktiviert und kann für die folgenden Kombinationen aus Modell und Instanztyp nicht deaktiviert werden:
-
Amazon Nova Lite auf
ml.g6.12xlargeoderml.g6.24xlarge -
Nova 2 Lite an
ml.g6.48xlarge
Für diese Konfigurationen müssen Sie keine Einstellungen vornehmenQUANTIZATION_DTYPE. Details dazu finden Sie unter Quantisierung.
Standardtemperatur
Legt die Standard-Abtasttemperatur für alle Inferenzanfragen fest, die an den Endpunkt gesendet werden. Die Temperatur bestimmt, wie zufällig oder vorhersehbar die Ausgabe des Modells ist. Bei einem Wert von 0 wählt das Modell immer das wahrscheinlichste nächste Wort aus, wodurch eine konsistente und wiederholbare Ausgabe erzielt wird. Höhere Werte (bis zu2) erhöhen die Bereitschaft des Modells, weniger wahrscheinliche Wörter auszuwählen, was zu kreativeren und vielfältigeren Antworten führt.
Verwendungszweck: Senken Sie die Temperatur (z. B. 0.1 auf0.3) für Aufgaben, die sachliche, konsistente Antworten erfordern, wie Klassifizierung oder Datenextraktion. Erhöhen Sie den Wert (z. B. 0.7 auf1.0) für kreative Aufgaben wie das Schreiben von Geschichten oder Brainstorming. Die Temperatur funktioniert zusammen mit Top-P und Top-K — alle drei steuern, wie das Modell Tokens auswählt, und Sie können sie kombinieren, um das Ausgabeverhalten zu optimieren.
- Eingeführt in
v1.0- Unterstützte Modelle
Alle Amazon Nova-Modelle
- Wie aktiviert man
-
Legen Sie die
DEFAULT_TEMPERATUREUmgebungsvariable fest, wenn Sie das SageMaker Modell erstellen. - Standardwert
1.0- Zulässige Werte
Schwebe zwischen
0und2(einschließlich)
Umgebungsvariable
"Environment": { "DEFAULT_TEMPERATURE": "0.7" }
Anmerkung
Sie können diese Standardeinstellung für jede Anfrage außer Kraft setzen, indem Sie den temperature Parameter in den Hauptteil der Anfrage aufnehmen.
Standard-Top-p
Legt den Standard-Top-p-Wert für alle Inferenzanfragen fest. Top-p steuert die Ausgabevielfalt, indem die Auswahlmöglichkeiten des Modells auf eine Teilmenge der wahrscheinlichsten Wörter beschränkt werden. Insbesondere sortiert das Modell alle möglichen nächsten Wörter nach Wahrscheinlichkeit und berücksichtigt nur die kleinste Gruppe, deren kombinierte Wahrscheinlichkeit den höchsten P-Wert erreicht. Ein Top-p 0.9 bedeutet beispielsweise, dass das Modell nur Wörter berücksichtigt, auf die zusammen 90% der Wahrscheinlichkeit entfallen, und die verbleibenden unwahrscheinlichen Optionen ignoriert.
Verwendungszweck: Verwenden Sie einen niedrigeren Top-p-Wert (z. B.0.5), damit das Modell sich an Wörter mit hoher Zuverlässigkeit hält, was zu einer gezielteren Ausgabe führt. Verwenden Sie einen höheren Wert (z. B.0.95), um mehr Abwechslung zu ermöglichen. Top-p wird häufig als Alternative zur Temperatur verwendet — beide regeln die Ausgangsdiversität, aber Top-P passt sich dynamisch an, je nachdem, wie zuverlässig das Modell bei jedem Schritt ist. Sie können beide zusammen verwenden. In diesem Fall wendet das Modell bei jedem Schritt die Einschränkung an, die restriktiver ist.
- Eingeführt in
v1.0- Unterstützte Modelle
Alle Amazon Nova-Modelle
- Wie aktiviert man
-
Legen Sie die
DEFAULT_TOP_PUmgebungsvariable fest, wenn Sie das SageMaker Modell erstellen. - Standardwert
1.0- Zulässige Werte
Schwebe zwischen
1e-10und1(einschließlich)
Umgebungsvariable
"Environment": { "DEFAULT_TOP_P": "0.9" }
Anmerkung
Sie können diese Standardeinstellung für jede Anfrage außer Kraft setzen, indem Sie den top_p Parameter in den Hauptteil der Anfrage aufnehmen.
Die Standardeinstellung ist top-k
Legt den standardmäßigen Top-K-Wert für alle Inferenzanfragen fest. Top-k beschränkt die Auswahlmöglichkeiten des Modells auf eine feste Anzahl der wahrscheinlichsten nächsten Wörter. Ein Top-K 50 bedeutet beispielsweise, dass das Modell bei jedem Schritt nur die 50 wahrscheinlichsten Wörter berücksichtigt, unabhängig von ihren individuellen Wahrscheinlichkeiten. Ein Wert von -1 deaktiviert diesen Grenzwert, sodass das Modell alle möglichen Wörter berücksichtigen kann.
Verwendungszweck: Verwenden Sie Top-K, wenn Sie die Anzahl der vom Modell berücksichtigten Wortoptionen fest begrenzen möchten. Niedrigere Werte (zum Beispiel10) führen zu einer besser vorhersehbaren Ausgabe, während höhere Werte mehr Abwechslung ermöglichen. Top-k kann mit Temperatur und Top-p kombiniert werden — wenn mehrere Probenahmekontrollen aktiv sind, wendet das Modell alle an, wobei bei jedem Schritt die restriktivste Methode verwendet wird.
- Eingeführt in
v1.0- Unterstützte Modelle
Alle Amazon Nova-Modelle
- Wie aktiviert man
-
Legen Sie die
DEFAULT_TOP_KUmgebungsvariable fest, wenn Sie das SageMaker Modell erstellen. - Standardwert
-1(deaktiviert)- Zulässige Werte
Ganzzahl
-1oder größer. Wird verwendet-1, um alle Token zu berücksichtigen.
Umgebungsvariable
"Environment": { "DEFAULT_TOP_K": "50" }
Anmerkung
Sie können diese Standardeinstellung für jede Anfrage außer Kraft setzen, indem Sie den top_k Parameter in den Hauptteil der Anfrage aufnehmen.
Standardmäßige maximale Anzahl neuer Tokens
Legt die standardmäßige maximale Anzahl von Tokens (Wörtern oder Wortteilen) fest, die das Modell in einer Antwort generiert. Dieser Wert gilt für alle Anfragen, sofern er nicht überschrieben wird. Verwenden Sie diesen Wert, um die Antwortdauer zu kontrollieren und die Kosten auf Ihrem gesamten Endpunkt zu verwalten.
Verwendungszweck: Legen Sie diese Option fest, wenn Sie eine konsistente maximale Antwortdauer für alle Anfragen durchsetzen möchten. Stellen Sie es beispielsweise auf 256 für Aufgaben mit kurzen Antworten oder 2048 für die Generierung längerer Inhalte ein. Der zulässige Höchstwert hängt von dem für Ihren Endpunkt CONTEXT_LENGTH konfigurierten Wert ab, da Eingabe-Token und Ausgabetokens die Kontextlänge nicht überschreiten dürfen.
- Eingeführt in
v1.0- Unterstützte Modelle
Alle Amazon Nova-Modelle
- Wie aktiviert man
-
Legen Sie die
DEFAULT_MAX_NEW_TOKENSUmgebungsvariable fest, wenn Sie das SageMaker Modell erstellen. - Standardwert
Die maximale Kontextlänge des Modells
- Zulässige Werte
Ganzzahl
1oder größer
Umgebungsvariable
"Environment": { "DEFAULT_MAX_NEW_TOKENS": "512" }
Anmerkung
Sie können diese Standardeinstellung für jede Anfrage außer Kraft setzen, indem Sie den max_completion_tokens Parameter max_tokens oder in den Anforderungstext aufnehmen. Der zulässige Höchstwert hängt von dem für Ihren Endpunkt CONTEXT_LENGTH konfigurierten Wert ab.
Standard-Logprobs
Legt die Standardanzahl von Log-Wahrscheinlichkeiten fest, die für jedes generierte Token zurückgegeben werden sollen. Eine Log-Wahrscheinlichkeit ist ein numerischer Wert, der angibt, wie sicher das Modell bei der Auswahl der einzelnen Wörter war. Wenn diese Option aktiviert ist, umfasst die Antwort diese Werte für jedes Ausgabetoken. Dies ist nützlich, um die Zuverlässigkeit des Modells zu bewerten, alternative Wortwahlen zu vergleichen und das Generierungsverhalten zu debuggen.
Verwendungszweck: Aktivieren Sie Logprobs, wenn Sie beurteilen müssen, wie zuverlässig das Modell in seiner Ausgabe ist, z. B. um Antworten mit geringer Zuverlässigkeit zur Überprüfung durch einen Menschen zu kennzeichnen oder um die Wahrscheinlichkeit verschiedener Abschlüsse zu vergleichen. Die Aktivierung von Logprobs kann die Reaktionslatenz und die Größe der Antwortnutzlast geringfügig erhöhen.
- Eingeführt in
v1.0- Unterstützte Modelle
Alle Amazon Nova-Modelle
- Wie aktiviert man
-
Legen Sie die
DEFAULT_LOGPROBSUmgebungsvariable fest, wenn Sie das SageMaker Modell erstellen. - Standardwert
Disabled
- Zulässige Werte
Ganzzahl zwischen
1und20(einschließlich)
Umgebungsvariable
"Environment": { "DEFAULT_LOGPROBS": "5" }
Anmerkung
Sie können diese Standardeinstellung für jede Anfrage außer Kraft setzen, indem Sie die top_logprobs Parameter logprobs und in den Anforderungstext aufnehmen. Die Aktivierung von Logprobs kann die Antwortlatenz geringfügig erhöhen.
Spekulative Dekodierung mit Eagle3
Die spekulative Eagle3-Dekodierung ist eine Optimierungstechnik, die die Textgenerierung beschleunigt. Es funktioniert, indem ein kleineres, schnelleres Entwurfsmodell verwendet wird, um mehrere Tokens im Voraus vorherzusagen, und diese Vorhersagen dann in einem einzigen Schritt mit dem Primärmodell verglichen. Wenn die Vorhersagen korrekt sind, generiert das Modell effektiv mehrere Token in der Zeit, die normalerweise für die Generierung eines Tokens erforderlich wäre. Das Primärmodell verifiziert immer die Entwurfs-Token, sodass das Endergebnis mit dem identisch ist, was das Primärmodell selbst produzieren würde — nur die Geschwindigkeit ändert sich, nicht die Qualität.
Verwendungszweck: Die spekulative Dekodierung von Eagle3 ist standardmäßig aktiviert und kommt den meisten Workloads zugute. Erwägen Sie, es nur zu deaktivieren, wenn Sie beim Debuggen ein unerwartetes Verhalten beobachten oder Leistungsmerkmale isolieren müssen.
- Eingeführt in
v1.0. Support für FP8-Quantisierung mit spekulativer Eagle3-Dekodierung wurde hinzugefügt.v1.4- Unterstützte Modelle
Alle Amazon Nova-Modelle
- Wie aktiviert man
-
Die spekulative Dekodierung von Eagle3 ist standardmäßig aktiviert, ohne dass eine Konfiguration erforderlich ist. Verwenden Sie, um
DISABLE_SPECULATIVE_DECODINGes zu deaktivieren. - Standardwert
false(Die spekulative Eagle3-Dekodierung ist aktiviert)- Zulässige Werte
true,false
Umgebungsvariable
Das folgende Beispiel deaktiviert die spekulative Eagle3-Dekodierung:
"Environment": { "DISABLE_SPECULATIVE_DECODING": "true" }
KV-Cache-Datentyp
Legt den Datentyp für den Schlüsselwert-Cache (KV) fest, der während der Inferenz verwendet wird. Der KV-Cache speichert den Speicher früherer Token des Modells in einer Konversation, sodass jedes neue Token generiert werden kann, ohne die gesamte Eingabe erneut verarbeiten zu müssen. Bei langen Sequenzen kann dieser Cache viel GPU-Speicher verbrauchen. Wenn Sie den KV-Cache auf einen Datentyp mit niedrigerer Genauigkeit wie FP8 einstellen, wird der Speicherverbrauch reduziert und der Durchsatz kann verbessert werden, allerdings auf Kosten geringfügiger numerischer Unterschiede bei der Ausgabe.
Verwendungszweck: Aktivieren Sie den FP8-KV-Cache, wenn Sie längere Kontextlängen oder eine höhere Parallelität auf Ihrer Instance unterstützen müssen. Dies ist besonders bei GPU-Instanzen mit begrenztem Arbeitsspeicher nützlich. Testen Sie Ihren Anwendungsfall, um sicherzustellen, dass die Ausgabequalität Ihren Anforderungen entspricht, da eine geringere Genauigkeit zu leicht unterschiedlichen Ergebnissen führen kann.
- Eingeführt in
v1.3- Unterstützte Modelle
Alle Amazon Nova-Modelle
- Wie aktiviert man
-
Legen Sie die
KV_CACHE_DTYPEUmgebungsvariable fest, wenn Sie das SageMaker Modell erstellen. - Standardwert
Entspricht dem Datentyp des Modells
- Zulässige Werte
fp8
Umgebungsvariable
"Environment": { "KV_CACHE_DTYPE": "fp8" }
Anmerkung
Eine Änderung des KV-Cache-Datentyps kann zu geringfügig anderen Ausgaben als bei der Standardgenauigkeit führen. Testen Sie Ihren Anwendungsfall, um sicherzustellen, dass die Ausgabequalität Ihren Anforderungen entspricht.
Quantisierung
Legt den Quantisierungsdatentyp für Modellgewichte fest. Bei der Quantisierung werden die Gewichtungen des Modells in ein Format mit niedrigerer Genauigkeit komprimiert (FP8 statt der standardmäßigen höheren Genauigkeit), wodurch der für das Modell benötigte GPU-Speicher reduziert wird. Dies kann den Inferenzdurchsatz verbessern und es größeren Modellen ermöglichen, auf kleinere Instance-Typen zu passen, ohne dass die Ausgabequalität beeinträchtigt wird.
Verwendungszweck: Verwenden Sie die FP8-Quantisierung, wenn Sie die Speicherauslastung reduzieren möchten, um eine höhere Parallelität zu unterstützen, oder wenn Sie ein Modell an einen kleineren Instance-Typ anpassen möchten. Beachten Sie, dass bei einigen Kombinationen aus Modell und Instanztyp die automatische FP8-Quantisierung erforderlich ist — siehe die Warnung unten.
- Eingeführt in
v1.3- Unterstützte Modelle
Alle Amazon Nova-Modelle
- Wie aktiviert man
-
Legen Sie die
QUANTIZATION_DTYPEUmgebungsvariable fest, wenn Sie das SageMaker Modell erstellen. - Standardwert
Deaktiviert. Die FP8-Quantisierung wird jedoch für bestimmte Kombinationen aus Modell und Instanztyp automatisch aktiviert. Siehe den Hinweis unten.
- Zulässige Werte
fp8
Umgebungsvariable
"Environment": { "QUANTIZATION_DTYPE": "fp8" }
Wichtig
Die folgenden Kombinationen aus Modell und Instanztyp erfordern eine FP8-Quantisierung. Für diese Konfigurationen wird die Quantisierung automatisch aktiviert und kann nicht deaktiviert oder außer Kraft gesetzt werden:
-
Amazon Nova Lite auf
ml.g6.12xlargeoderml.g6.24xlarge -
Nova 2 Lite an
ml.g6.48xlarge
Einzelheiten zu allen anderen Konfigurationen finden Unterstützte Modelle und Instanzen Sie unter.
Anzahl der spekulativen Token
Steuert, wie viele Token der Modellentwurf bei jedem spekulativen Dekodierungsschritt von Eagle3 voraussagt. Ein höherer Wert bedeutet, dass der Modellentwurf versucht, mehr Tokens gleichzeitig vorherzusagen, wodurch der Durchsatz verbessert werden kann, wenn die Prognosen korrekt sind. Wenn die Vorhersagen des Modellentwurfs häufig vom Primärmodell abweichen, kann ein niedrigerer Wert effizienter sein.
Verwendungszweck: Erhöhen Sie diesen Wert, wenn Ihr Workload vorhersehbare Ausgabemuster erzeugt (z. B. strukturierte Daten oder Vorlagentext), bei denen das Entwurfsmodell wahrscheinlich richtig raten wird. Verringern Sie ihn für kreative oder stark variable Ergebnisse, bei denen Vorhersagen weniger zuverlässig sind.
- Eingeführt in
v1.4- Unterstützte Modelle
Alle Amazon Nova-Modelle
- Wie aktiviert man
-
Legen Sie die
NUM_SPECULATIVE_TOKENSUmgebungsvariable fest, wenn Sie das SageMaker Modell erstellen. - Standardwert
3- Zulässige Werte
Ganzzahl zwischen
1und10(einschließlich)
Umgebungsvariable
"Environment": { "NUM_SPECULATIVE_TOKENS": "5" }
Anmerkung
Diese Einstellung gilt nur, wenn die spekulative Eagle3-Dekodierung aktiviert ist (ist). DISABLE_SPECULATIVE_DECODING false Sie hat keine Auswirkung, wenn die spekulative Dekodierung deaktiviert ist oder wenn die Suffixdekodierung verwendet wird.
Dekodierung von Suffixen
Die Suffixdekodierung ist eine alternative Methode zur Beschleunigung der Textgenerierung. Anstatt ein separates Entwurfsmodell zu verwenden (wie es Eagle3 tut), sucht die Suffixdekodierung nach wiederholten Mustern im bereits generierten Text oder in der Eingabeaufforderung und verwendet diese Muster wieder, um future Token vorherzusagen. Dieser Ansatz funktioniert gut, wenn die Ausgabe wahrscheinlich wiederholte Phrasen, strukturierte Formate oder Inhalte enthält, die der Eingabe sehr ähnlich sind.
Verwendungszweck: Verwenden Sie die Suffixdekodierung für Aufgaben, bei denen die Ausgabe sich wiederholende Muster enthält, z. B. das Generieren strukturierter Daten, das Ausfüllen von Vorlagen oder das Zusammenfassen von Inhalten, bei denen Phrasen aus der Quelle wiederverwendet werden. Bei der Generierung für allgemeine Zwecke, bei denen die Ausgabe sehr unterschiedlich ist, bietet die Standardmethode Eagle3 in der Regel einen besseren Durchsatz.
- Eingeführt in
v1.4- Unterstützte Modelle
Alle Amazon Nova-Modelle
- Wie aktiviert man
-
Stellen Sie die
SPECULATIVE_DECODING_METHODUmgebungsvariable auf ein,suffixwenn Sie das SageMaker Modell erstellen. - Standardwert
eagle3- Zulässige Werte
eagle3,suffix
Umgebungsvariable
"Environment": { "SPECULATIVE_DECODING_METHOD": "suffix" }
Anmerkung
Um die Suffix-Dekodierung zu verwenden, DISABLE_SPECULATIVE_DECODING muss sie auf false (Standard) gesetzt sein. Die Einstellung DISABLE_SPECULATIVE_DECODING auf true deaktiviert alle spekulativen Dekodierungsmethoden, einschließlich der Suffixdekodierung.