Übersicht der Funktionen Standardtemperatur Standard-Top-p Die Standardeinstellung ist top-k Standardmäßige maximale Anzahl neuer Tokens Standard-Logprobs Spekulative Dekodierung mit Eagle3 KV-Cache-Datentyp Quantisierung Anzahl der spekulativen Token Dekodierung von Suffixen

Funktionen des Inferenzcontainers

Der Amazon SageMaker Nova-Inferenzcontainer enthält eine Reihe von Funktionen, die Sie aktivieren können, um das Modellverhalten während der Inferenz anzupassen. Jede Funktion wird in einer bestimmten Container-Version eingeführt und erfordert möglicherweise Umgebungsvariablen, Anforderungsparameter oder beides, um aktiviert zu werden.

Diese Seite listet die im Inferenzcontainer verfügbaren Funktionen auf, beschreibt, wie die einzelnen Funktionen aktiviert werden, und identifiziert die Containerversion, in der die Funktion eingeführt wurde. Anhand dieser Referenz können Sie ermitteln, welche Funktionen für Ihre Bereitstellung verfügbar sind und wie Sie sie konfigurieren.

Funktionen, die über Umgebungsvariablen aktiviert werden, werden bei der Erstellung der SageMaker Modell- oder Endpunktkonfiguration festgelegt. Nehmen Sie sie in den Environment Parameter des CreateModelAPI-Aufrufs auf. Funktionen, die durch Anforderungsparameter aktiviert werden, werden pro Aufruf im Anforderungstext festgelegt.

Anmerkung

Verwenden Sie immer das neueste Container-Image, um Zugriff auf alle verfügbaren Funktionen zu erhalten. Das SM-Inference-latest Tag zeigt derzeit aufv1.4.

Übersicht der Funktionen

Die folgende Tabelle bietet eine Kurzübersicht aller Funktionen, die im Amazon SageMaker Nova-Inferenzcontainer unterstützt werden.

Zusammenfassung der Funktionen des Inferenz-Containers
Feature	Wie aktiviert man	Standard	Unterstützte Modelle	Eingeführt in
Standardtemperatur	Umgebungsvariable	`1.0`	Alle Amazon Nova-Modelle	v1.0
Standard-Top-p	Umgebungsvariable	`1.0`	Alle Amazon Nova-Modelle	v1.0
Die Standardeinstellung ist top-k	Umgebungsvariable	`-1`(deaktiviert)	Alle Amazon Nova-Modelle	v1.0
Standardmäßige maximale Anzahl neuer Tokens	Umgebungsvariable	Die maximale Kontextlänge des Modells	Alle Amazon Nova-Modelle	v1.0
Standard-Logprobs	Umgebungsvariable	Disabled	Alle Amazon Nova-Modelle	v1.0
Spekulative Dekodierung mit Eagle3	Standardmäßig aktiviert.	Aktiviert	Alle Amazon Nova-Modelle	v1.0
KV-Cache-Datentyp	Umgebungsvariable	Entspricht dem Modelldatentyp	Alle Amazon Nova-Modelle	v1.3
Quantisierung	Umgebungsvariable	Deaktiviert*	Alle Amazon Nova-Modelle	v1.3
Anzahl der spekulativen Token	Umgebungsvariable	`3`	Alle Amazon Nova-Modelle	v1.4
Dekodierung von Suffixen	Umgebungsvariable	Disabled	Alle Amazon Nova-Modelle	v1.4

Wichtig

* Die FP8-Quantisierung ist automatisch aktiviert und kann für die folgenden Kombinationen aus Modell und Instanztyp nicht deaktiviert werden:

Amazon Nova Lite auf ml.g6.12xlarge oder ml.g6.24xlarge
Nova 2 Lite an ml.g6.48xlarge

Für diese Konfigurationen müssen Sie keine Einstellungen vornehmenQUANTIZATION_DTYPE. Details dazu finden Sie unter Quantisierung.

Standardtemperatur

Legt die Standard-Abtasttemperatur für alle Inferenzanfragen fest, die an den Endpunkt gesendet werden. Die Temperatur bestimmt, wie zufällig oder vorhersehbar die Ausgabe des Modells ist. Bei einem Wert von 0 wählt das Modell immer das wahrscheinlichste nächste Wort aus, wodurch eine konsistente und wiederholbare Ausgabe erzielt wird. Höhere Werte (bis zu2) erhöhen die Bereitschaft des Modells, weniger wahrscheinliche Wörter auszuwählen, was zu kreativeren und vielfältigeren Antworten führt.

Verwendungszweck: Senken Sie die Temperatur (z. B. 0.1 auf0.3) für Aufgaben, die sachliche, konsistente Antworten erfordern, wie Klassifizierung oder Datenextraktion. Erhöhen Sie den Wert (z. B. 0.7 auf1.0) für kreative Aufgaben wie das Schreiben von Geschichten oder Brainstorming. Die Temperatur funktioniert zusammen mit Top-P und Top-K — alle drei steuern, wie das Modell Tokens auswählt, und Sie können sie kombinieren, um das Ausgabeverhalten zu optimieren.

Eingeführt in: v1.0
Unterstützte Modelle: Alle Amazon Nova-Modelle
Wie aktiviert man: Legen Sie die DEFAULT_TEMPERATURE Umgebungsvariable fest, wenn Sie das SageMaker Modell erstellen.
Standardwert: 1.0
Zulässige Werte: Schwebe zwischen 0 und 2 (einschließlich)

Umgebungsvariable


"Environment": {
    "DEFAULT_TEMPERATURE": "0.7"
}

Anmerkung

Sie können diese Standardeinstellung für jede Anfrage außer Kraft setzen, indem Sie den temperature Parameter in den Hauptteil der Anfrage aufnehmen.

Standard-Top-p

Legt den Standard-Top-p-Wert für alle Inferenzanfragen fest. Top-p steuert die Ausgabevielfalt, indem die Auswahlmöglichkeiten des Modells auf eine Teilmenge der wahrscheinlichsten Wörter beschränkt werden. Insbesondere sortiert das Modell alle möglichen nächsten Wörter nach Wahrscheinlichkeit und berücksichtigt nur die kleinste Gruppe, deren kombinierte Wahrscheinlichkeit den höchsten P-Wert erreicht. Ein Top-p 0.9 bedeutet beispielsweise, dass das Modell nur Wörter berücksichtigt, auf die zusammen 90% der Wahrscheinlichkeit entfallen, und die verbleibenden unwahrscheinlichen Optionen ignoriert.

Verwendungszweck: Verwenden Sie einen niedrigeren Top-p-Wert (z. B.0.5), damit das Modell sich an Wörter mit hoher Zuverlässigkeit hält, was zu einer gezielteren Ausgabe führt. Verwenden Sie einen höheren Wert (z. B.0.95), um mehr Abwechslung zu ermöglichen. Top-p wird häufig als Alternative zur Temperatur verwendet — beide regeln die Ausgangsdiversität, aber Top-P passt sich dynamisch an, je nachdem, wie zuverlässig das Modell bei jedem Schritt ist. Sie können beide zusammen verwenden. In diesem Fall wendet das Modell bei jedem Schritt die Einschränkung an, die restriktiver ist.

Eingeführt in: v1.0
Unterstützte Modelle: Alle Amazon Nova-Modelle
Wie aktiviert man: Legen Sie die DEFAULT_TOP_P Umgebungsvariable fest, wenn Sie das SageMaker Modell erstellen.
Standardwert: 1.0
Zulässige Werte: Schwebe zwischen 1e-10 und 1 (einschließlich)

Umgebungsvariable


"Environment": {
    "DEFAULT_TOP_P": "0.9"
}

Anmerkung

Sie können diese Standardeinstellung für jede Anfrage außer Kraft setzen, indem Sie den top_p Parameter in den Hauptteil der Anfrage aufnehmen.

Die Standardeinstellung ist top-k

Legt den standardmäßigen Top-K-Wert für alle Inferenzanfragen fest. Top-k beschränkt die Auswahlmöglichkeiten des Modells auf eine feste Anzahl der wahrscheinlichsten nächsten Wörter. Ein Top-K 50 bedeutet beispielsweise, dass das Modell bei jedem Schritt nur die 50 wahrscheinlichsten Wörter berücksichtigt, unabhängig von ihren individuellen Wahrscheinlichkeiten. Ein Wert von -1 deaktiviert diesen Grenzwert, sodass das Modell alle möglichen Wörter berücksichtigen kann.

Verwendungszweck: Verwenden Sie Top-K, wenn Sie die Anzahl der vom Modell berücksichtigten Wortoptionen fest begrenzen möchten. Niedrigere Werte (zum Beispiel10) führen zu einer besser vorhersehbaren Ausgabe, während höhere Werte mehr Abwechslung ermöglichen. Top-k kann mit Temperatur und Top-p kombiniert werden — wenn mehrere Probenahmekontrollen aktiv sind, wendet das Modell alle an, wobei bei jedem Schritt die restriktivste Methode verwendet wird.

Eingeführt in: v1.0
Unterstützte Modelle: Alle Amazon Nova-Modelle
Wie aktiviert man: Legen Sie die DEFAULT_TOP_K Umgebungsvariable fest, wenn Sie das SageMaker Modell erstellen.
Standardwert: -1(deaktiviert)
Zulässige Werte: Ganzzahl -1 oder größer. Wird verwendet-1, um alle Token zu berücksichtigen.

Umgebungsvariable


"Environment": {
    "DEFAULT_TOP_K": "50"
}

Anmerkung

Sie können diese Standardeinstellung für jede Anfrage außer Kraft setzen, indem Sie den top_k Parameter in den Hauptteil der Anfrage aufnehmen.

Standardmäßige maximale Anzahl neuer Tokens

Legt die standardmäßige maximale Anzahl von Tokens (Wörtern oder Wortteilen) fest, die das Modell in einer Antwort generiert. Dieser Wert gilt für alle Anfragen, sofern er nicht überschrieben wird. Verwenden Sie diesen Wert, um die Antwortdauer zu kontrollieren und die Kosten auf Ihrem gesamten Endpunkt zu verwalten.

Verwendungszweck: Legen Sie diese Option fest, wenn Sie eine konsistente maximale Antwortdauer für alle Anfragen durchsetzen möchten. Stellen Sie es beispielsweise auf 256 für Aufgaben mit kurzen Antworten oder 2048 für die Generierung längerer Inhalte ein. Der zulässige Höchstwert hängt von dem für Ihren Endpunkt CONTEXT_LENGTH konfigurierten Wert ab, da Eingabe-Token und Ausgabetokens die Kontextlänge nicht überschreiten dürfen.

Eingeführt in: v1.0
Unterstützte Modelle: Alle Amazon Nova-Modelle
Wie aktiviert man: Legen Sie die DEFAULT_MAX_NEW_TOKENS Umgebungsvariable fest, wenn Sie das SageMaker Modell erstellen.
Standardwert: Die maximale Kontextlänge des Modells
Zulässige Werte: Ganzzahl 1 oder größer

Umgebungsvariable


"Environment": {
    "DEFAULT_MAX_NEW_TOKENS": "512"
}

Anmerkung

Sie können diese Standardeinstellung für jede Anfrage außer Kraft setzen, indem Sie den max_completion_tokens Parameter max_tokens oder in den Anforderungstext aufnehmen. Der zulässige Höchstwert hängt von dem für Ihren Endpunkt CONTEXT_LENGTH konfigurierten Wert ab.

Standard-Logprobs

Legt die Standardanzahl von Log-Wahrscheinlichkeiten fest, die für jedes generierte Token zurückgegeben werden sollen. Eine Log-Wahrscheinlichkeit ist ein numerischer Wert, der angibt, wie sicher das Modell bei der Auswahl der einzelnen Wörter war. Wenn diese Option aktiviert ist, umfasst die Antwort diese Werte für jedes Ausgabetoken. Dies ist nützlich, um die Zuverlässigkeit des Modells zu bewerten, alternative Wortwahlen zu vergleichen und das Generierungsverhalten zu debuggen.

Verwendungszweck: Aktivieren Sie Logprobs, wenn Sie beurteilen müssen, wie zuverlässig das Modell in seiner Ausgabe ist, z. B. um Antworten mit geringer Zuverlässigkeit zur Überprüfung durch einen Menschen zu kennzeichnen oder um die Wahrscheinlichkeit verschiedener Abschlüsse zu vergleichen. Die Aktivierung von Logprobs kann die Reaktionslatenz und die Größe der Antwortnutzlast geringfügig erhöhen.

Eingeführt in: v1.0
Unterstützte Modelle: Alle Amazon Nova-Modelle
Wie aktiviert man: Legen Sie die DEFAULT_LOGPROBS Umgebungsvariable fest, wenn Sie das SageMaker Modell erstellen.
Standardwert: Disabled
Zulässige Werte: Ganzzahl zwischen 1 und 20 (einschließlich)

Umgebungsvariable


"Environment": {
    "DEFAULT_LOGPROBS": "5"
}

Anmerkung

Sie können diese Standardeinstellung für jede Anfrage außer Kraft setzen, indem Sie die top_logprobs Parameter logprobs und in den Anforderungstext aufnehmen. Die Aktivierung von Logprobs kann die Antwortlatenz geringfügig erhöhen.

Spekulative Dekodierung mit Eagle3

Die spekulative Eagle3-Dekodierung ist eine Optimierungstechnik, die die Textgenerierung beschleunigt. Es funktioniert, indem ein kleineres, schnelleres Entwurfsmodell verwendet wird, um mehrere Tokens im Voraus vorherzusagen, und diese Vorhersagen dann in einem einzigen Schritt mit dem Primärmodell verglichen. Wenn die Vorhersagen korrekt sind, generiert das Modell effektiv mehrere Token in der Zeit, die normalerweise für die Generierung eines Tokens erforderlich wäre. Das Primärmodell verifiziert immer die Entwurfs-Token, sodass das Endergebnis mit dem identisch ist, was das Primärmodell selbst produzieren würde — nur die Geschwindigkeit ändert sich, nicht die Qualität.

Verwendungszweck: Die spekulative Dekodierung von Eagle3 ist standardmäßig aktiviert und kommt den meisten Workloads zugute. Erwägen Sie, es nur zu deaktivieren, wenn Sie beim Debuggen ein unerwartetes Verhalten beobachten oder Leistungsmerkmale isolieren müssen.

Eingeführt in: v1.0. Support für FP8-Quantisierung mit spekulativer Eagle3-Dekodierung wurde hinzugefügt. v1.4
Unterstützte Modelle: Alle Amazon Nova-Modelle
Wie aktiviert man: Die spekulative Dekodierung von Eagle3 ist standardmäßig aktiviert, ohne dass eine Konfiguration erforderlich ist. Verwenden Sie, um DISABLE_SPECULATIVE_DECODING es zu deaktivieren.
Standardwert: false(Die spekulative Eagle3-Dekodierung ist aktiviert)
Zulässige Werte: true, false

Umgebungsvariable

Das folgende Beispiel deaktiviert die spekulative Eagle3-Dekodierung:


"Environment": {
    "DISABLE_SPECULATIVE_DECODING": "true"
}

KV-Cache-Datentyp

Legt den Datentyp für den Schlüsselwert-Cache (KV) fest, der während der Inferenz verwendet wird. Der KV-Cache speichert den Speicher früherer Token des Modells in einer Konversation, sodass jedes neue Token generiert werden kann, ohne die gesamte Eingabe erneut verarbeiten zu müssen. Bei langen Sequenzen kann dieser Cache viel GPU-Speicher verbrauchen. Wenn Sie den KV-Cache auf einen Datentyp mit niedrigerer Genauigkeit wie FP8 einstellen, wird der Speicherverbrauch reduziert und der Durchsatz kann verbessert werden, allerdings auf Kosten geringfügiger numerischer Unterschiede bei der Ausgabe.

Verwendungszweck: Aktivieren Sie den FP8-KV-Cache, wenn Sie längere Kontextlängen oder eine höhere Parallelität auf Ihrer Instance unterstützen müssen. Dies ist besonders bei GPU-Instanzen mit begrenztem Arbeitsspeicher nützlich. Testen Sie Ihren Anwendungsfall, um sicherzustellen, dass die Ausgabequalität Ihren Anforderungen entspricht, da eine geringere Genauigkeit zu leicht unterschiedlichen Ergebnissen führen kann.

Eingeführt in: v1.3
Unterstützte Modelle: Alle Amazon Nova-Modelle
Wie aktiviert man: Legen Sie die KV_CACHE_DTYPE Umgebungsvariable fest, wenn Sie das SageMaker Modell erstellen.
Standardwert: Entspricht dem Datentyp des Modells
Zulässige Werte: fp8

Umgebungsvariable


"Environment": {
    "KV_CACHE_DTYPE": "fp8"
}

Anmerkung

Eine Änderung des KV-Cache-Datentyps kann zu geringfügig anderen Ausgaben als bei der Standardgenauigkeit führen. Testen Sie Ihren Anwendungsfall, um sicherzustellen, dass die Ausgabequalität Ihren Anforderungen entspricht.

Quantisierung

Legt den Quantisierungsdatentyp für Modellgewichte fest. Bei der Quantisierung werden die Gewichtungen des Modells in ein Format mit niedrigerer Genauigkeit komprimiert (FP8 statt der standardmäßigen höheren Genauigkeit), wodurch der für das Modell benötigte GPU-Speicher reduziert wird. Dies kann den Inferenzdurchsatz verbessern und es größeren Modellen ermöglichen, auf kleinere Instance-Typen zu passen, ohne dass die Ausgabequalität beeinträchtigt wird.

Verwendungszweck: Verwenden Sie die FP8-Quantisierung, wenn Sie die Speicherauslastung reduzieren möchten, um eine höhere Parallelität zu unterstützen, oder wenn Sie ein Modell an einen kleineren Instance-Typ anpassen möchten. Beachten Sie, dass bei einigen Kombinationen aus Modell und Instanztyp die automatische FP8-Quantisierung erforderlich ist — siehe die Warnung unten.

Eingeführt in: v1.3
Unterstützte Modelle: Alle Amazon Nova-Modelle
Wie aktiviert man: Legen Sie die QUANTIZATION_DTYPE Umgebungsvariable fest, wenn Sie das SageMaker Modell erstellen.
Standardwert: Deaktiviert. Die FP8-Quantisierung wird jedoch für bestimmte Kombinationen aus Modell und Instanztyp automatisch aktiviert. Siehe den Hinweis unten.
Zulässige Werte: fp8

Umgebungsvariable


"Environment": {
    "QUANTIZATION_DTYPE": "fp8"
}

Wichtig

Die folgenden Kombinationen aus Modell und Instanztyp erfordern eine FP8-Quantisierung. Für diese Konfigurationen wird die Quantisierung automatisch aktiviert und kann nicht deaktiviert oder außer Kraft gesetzt werden:

Amazon Nova Lite auf ml.g6.12xlarge oder ml.g6.24xlarge
Nova 2 Lite an ml.g6.48xlarge

Einzelheiten zu allen anderen Konfigurationen finden Unterstützte Modelle und Instanzen Sie unter.

Anzahl der spekulativen Token

Steuert, wie viele Token der Modellentwurf bei jedem spekulativen Dekodierungsschritt von Eagle3 voraussagt. Ein höherer Wert bedeutet, dass der Modellentwurf versucht, mehr Tokens gleichzeitig vorherzusagen, wodurch der Durchsatz verbessert werden kann, wenn die Prognosen korrekt sind. Wenn die Vorhersagen des Modellentwurfs häufig vom Primärmodell abweichen, kann ein niedrigerer Wert effizienter sein.

Verwendungszweck: Erhöhen Sie diesen Wert, wenn Ihr Workload vorhersehbare Ausgabemuster erzeugt (z. B. strukturierte Daten oder Vorlagentext), bei denen das Entwurfsmodell wahrscheinlich richtig raten wird. Verringern Sie ihn für kreative oder stark variable Ergebnisse, bei denen Vorhersagen weniger zuverlässig sind.

Eingeführt in: v1.4
Unterstützte Modelle: Alle Amazon Nova-Modelle
Wie aktiviert man: Legen Sie die NUM_SPECULATIVE_TOKENS Umgebungsvariable fest, wenn Sie das SageMaker Modell erstellen.
Standardwert: 3
Zulässige Werte: Ganzzahl zwischen 1 und 10 (einschließlich)

Umgebungsvariable


"Environment": {
    "NUM_SPECULATIVE_TOKENS": "5"
}

Anmerkung

Diese Einstellung gilt nur, wenn die spekulative Eagle3-Dekodierung aktiviert ist (ist). DISABLE_SPECULATIVE_DECODING false Sie hat keine Auswirkung, wenn die spekulative Dekodierung deaktiviert ist oder wenn die Suffixdekodierung verwendet wird.

Dekodierung von Suffixen

Die Suffixdekodierung ist eine alternative Methode zur Beschleunigung der Textgenerierung. Anstatt ein separates Entwurfsmodell zu verwenden (wie es Eagle3 tut), sucht die Suffixdekodierung nach wiederholten Mustern im bereits generierten Text oder in der Eingabeaufforderung und verwendet diese Muster wieder, um future Token vorherzusagen. Dieser Ansatz funktioniert gut, wenn die Ausgabe wahrscheinlich wiederholte Phrasen, strukturierte Formate oder Inhalte enthält, die der Eingabe sehr ähnlich sind.

Verwendungszweck: Verwenden Sie die Suffixdekodierung für Aufgaben, bei denen die Ausgabe sich wiederholende Muster enthält, z. B. das Generieren strukturierter Daten, das Ausfüllen von Vorlagen oder das Zusammenfassen von Inhalten, bei denen Phrasen aus der Quelle wiederverwendet werden. Bei der Generierung für allgemeine Zwecke, bei denen die Ausgabe sehr unterschiedlich ist, bietet die Standardmethode Eagle3 in der Regel einen besseren Durchsatz.

Eingeführt in: v1.4
Unterstützte Modelle: Alle Amazon Nova-Modelle
Wie aktiviert man: Stellen Sie die SPECULATIVE_DECODING_METHOD Umgebungsvariable auf ein, suffix wenn Sie das SageMaker Modell erstellen.
Standardwert: eagle3
Zulässige Werte: eagle3, suffix

Umgebungsvariable


"Environment": {
    "SPECULATIVE_DECODING_METHOD": "suffix"
}

Anmerkung

Um die Suffix-Dekodierung zu verwenden, DISABLE_SPECULATIVE_DECODING muss sie auf false (Standard) gesetzt sein. Die Einstellung DISABLE_SPECULATIVE_DECODING auf true deaktiviert alle spekulativen Dekodierungsmethoden, einschließlich der Suffixdekodierung.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Erste Schritte

API-Referenz