

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Funktionen des Inferenzcontainers
<a name="nova-sagemaker-inference-container-features"></a>

Der Amazon SageMaker Nova-Inferenzcontainer enthält eine Reihe von Funktionen, die Sie aktivieren können, um das Modellverhalten während der Inferenz anzupassen. Jede Funktion wird in einer bestimmten Container-Version eingeführt und erfordert möglicherweise Umgebungsvariablen, Anforderungsparameter oder beides, um aktiviert zu werden.

Diese Seite listet die im Inferenzcontainer verfügbaren Funktionen auf, beschreibt, wie die einzelnen Funktionen aktiviert werden, und identifiziert die Containerversion, in der die Funktion eingeführt wurde. Anhand dieser Referenz können Sie ermitteln, welche Funktionen für Ihre Bereitstellung verfügbar sind und wie Sie sie konfigurieren.

Funktionen, die über Umgebungsvariablen aktiviert werden, werden bei der Erstellung der SageMaker Modell- oder Endpunktkonfiguration festgelegt. Nehmen Sie sie in den `Environment` Parameter des [CreateModel](https://docs.aws.amazon.com//sagemaker/latest/APIReference/API_CreateModel.html)API-Aufrufs auf. Funktionen, die durch Anforderungsparameter aktiviert werden, werden pro Aufruf im Anforderungstext festgelegt.

**Anmerkung**  
Verwenden Sie immer das neueste Container-Image, um Zugriff auf alle verfügbaren Funktionen zu erhalten. Das `SM-Inference-latest` Tag zeigt derzeit auf`v1.4`.

## Übersicht der Funktionen
<a name="nova-sagemaker-inference-container-features-summary"></a>

Die folgende Tabelle bietet eine Kurzübersicht aller Funktionen, die im Amazon SageMaker Nova-Inferenzcontainer unterstützt werden.


**Zusammenfassung der Funktionen des Inferenz-Containers**  

| Feature | Wie aktiviert man | Standard | Unterstützte Modelle | Eingeführt in | 
| --- | --- | --- | --- | --- | 
| [Standardtemperatur](#nova-sagemaker-inference-container-feature-default-temperature) | Umgebungsvariable | 1.0 | Alle Amazon Nova-Modelle | v1.0 | 
| [Standard-Top-p](#nova-sagemaker-inference-container-feature-default-top-p) | Umgebungsvariable | 1.0 | Alle Amazon Nova-Modelle | v1.0 | 
| [Die Standardeinstellung ist top-k](#nova-sagemaker-inference-container-feature-default-top-k) | Umgebungsvariable | -1(deaktiviert) | Alle Amazon Nova-Modelle | v1.0 | 
| [Standardmäßige maximale Anzahl neuer Tokens](#nova-sagemaker-inference-container-feature-default-max-new-tokens) | Umgebungsvariable | Die maximale Kontextlänge des Modells | Alle Amazon Nova-Modelle | v1.0 | 
| [Standard-Logprobs](#nova-sagemaker-inference-container-feature-default-logprobs) | Umgebungsvariable | Disabled | Alle Amazon Nova-Modelle | v1.0 | 
| [Spekulative Dekodierung mit Eagle3](#nova-sagemaker-inference-container-feature-speculative-decoding) | Standardmäßig aktiviert. | Aktiviert | Alle Amazon Nova-Modelle | v1.0 | 
| [KV-Cache-Datentyp](#nova-sagemaker-inference-container-feature-kv-cache-dtype) | Umgebungsvariable | Entspricht dem Modelldatentyp | Alle Amazon Nova-Modelle | v1.3 | 
| [Quantisierung](#nova-sagemaker-inference-container-feature-quantization) | Umgebungsvariable | Deaktiviert\* | Alle Amazon Nova-Modelle | v1.3 | 
| [Anzahl der spekulativen Token](#nova-sagemaker-inference-container-feature-num-speculative-tokens) | Umgebungsvariable | 3 | Alle Amazon Nova-Modelle | v1.4 | 
| [Dekodierung von Suffixen](#nova-sagemaker-inference-container-feature-suffix-decoding) | Umgebungsvariable | Disabled | Alle Amazon Nova-Modelle | v1.4 | 

**Wichtig**  
\* Die FP8-Quantisierung ist automatisch aktiviert und kann für die folgenden Kombinationen aus Modell und Instanztyp nicht deaktiviert werden:  
Amazon Nova Lite auf `ml.g6.12xlarge` oder `ml.g6.24xlarge`
Nova 2 Lite an `ml.g6.48xlarge`
Für diese Konfigurationen müssen Sie keine Einstellungen vornehmen`QUANTIZATION_DTYPE`. Details dazu finden Sie unter [Quantisierung](#nova-sagemaker-inference-container-feature-quantization).

## Standardtemperatur
<a name="nova-sagemaker-inference-container-feature-default-temperature"></a>

Legt die Standard-Abtasttemperatur für alle Inferenzanfragen fest, die an den Endpunkt gesendet werden. Die Temperatur bestimmt, wie zufällig oder vorhersehbar die Ausgabe des Modells ist. Bei einem Wert von `0` wählt das Modell immer das wahrscheinlichste nächste Wort aus, wodurch eine konsistente und wiederholbare Ausgabe erzielt wird. Höhere Werte (bis zu`2`) erhöhen die Bereitschaft des Modells, weniger wahrscheinliche Wörter auszuwählen, was zu kreativeren und vielfältigeren Antworten führt.

**Verwendungszweck:** Senken Sie die Temperatur (z. B. `0.1` auf`0.3`) für Aufgaben, die sachliche, konsistente Antworten erfordern, wie Klassifizierung oder Datenextraktion. Erhöhen Sie den Wert (z. B. `0.7` auf`1.0`) für kreative Aufgaben wie das Schreiben von Geschichten oder Brainstorming. Die Temperatur funktioniert zusammen mit Top-P und Top-K — alle drei steuern, wie das Modell Tokens auswählt, und Sie können sie kombinieren, um das Ausgabeverhalten zu optimieren.

Eingeführt in  
`v1.0`

Unterstützte Modelle  
Alle Amazon Nova-Modelle

Wie aktiviert man  
Legen Sie die `DEFAULT_TEMPERATURE` Umgebungsvariable fest, wenn Sie das SageMaker Modell erstellen.

Standardwert  
`1.0`

Zulässige Werte  
Schwebe zwischen `0` und `2` (einschließlich)

**Umgebungsvariable**

```
"Environment": {
    "DEFAULT_TEMPERATURE": "0.7"
}
```

**Anmerkung**  
Sie können diese Standardeinstellung für jede Anfrage außer Kraft setzen, indem Sie den `temperature` Parameter in den Hauptteil der Anfrage aufnehmen.

## Standard-Top-p
<a name="nova-sagemaker-inference-container-feature-default-top-p"></a>

Legt den Standard-Top-p-Wert für alle Inferenzanfragen fest. Top-p steuert die Ausgabevielfalt, indem die Auswahlmöglichkeiten des Modells auf eine Teilmenge der wahrscheinlichsten Wörter beschränkt werden. Insbesondere sortiert das Modell alle möglichen nächsten Wörter nach Wahrscheinlichkeit und berücksichtigt nur die kleinste Gruppe, deren kombinierte Wahrscheinlichkeit den höchsten P-Wert erreicht. Ein Top-p `0.9` bedeutet beispielsweise, dass das Modell nur Wörter berücksichtigt, auf die zusammen 90% der Wahrscheinlichkeit entfallen, und die verbleibenden unwahrscheinlichen Optionen ignoriert.

**Verwendungszweck: Verwenden Sie** einen niedrigeren Top-p-Wert (z. B.`0.5`), damit das Modell sich an Wörter mit hoher Zuverlässigkeit hält, was zu einer gezielteren Ausgabe führt. Verwenden Sie einen höheren Wert (z. B.`0.95`), um mehr Abwechslung zu ermöglichen. Top-p wird häufig als Alternative zur Temperatur verwendet — beide regeln die Ausgangsdiversität, aber Top-P passt sich dynamisch an, je nachdem, wie zuverlässig das Modell bei jedem Schritt ist. Sie können beide zusammen verwenden. In diesem Fall wendet das Modell bei jedem Schritt die Einschränkung an, die restriktiver ist.

Eingeführt in  
`v1.0`

Unterstützte Modelle  
Alle Amazon Nova-Modelle

Wie aktiviert man  
Legen Sie die `DEFAULT_TOP_P` Umgebungsvariable fest, wenn Sie das SageMaker Modell erstellen.

Standardwert  
`1.0`

Zulässige Werte  
Schwebe zwischen `1e-10` und `1` (einschließlich)

**Umgebungsvariable**

```
"Environment": {
    "DEFAULT_TOP_P": "0.9"
}
```

**Anmerkung**  
Sie können diese Standardeinstellung für jede Anfrage außer Kraft setzen, indem Sie den `top_p` Parameter in den Hauptteil der Anfrage aufnehmen.

## Die Standardeinstellung ist top-k
<a name="nova-sagemaker-inference-container-feature-default-top-k"></a>

Legt den standardmäßigen Top-K-Wert für alle Inferenzanfragen fest. Top-k beschränkt die Auswahlmöglichkeiten des Modells auf eine feste Anzahl der wahrscheinlichsten nächsten Wörter. Ein Top-K `50` bedeutet beispielsweise, dass das Modell bei jedem Schritt nur die 50 wahrscheinlichsten Wörter berücksichtigt, unabhängig von ihren individuellen Wahrscheinlichkeiten. Ein Wert von `-1` deaktiviert diesen Grenzwert, sodass das Modell alle möglichen Wörter berücksichtigen kann.

**Verwendungszweck: Verwenden** Sie Top-K, wenn Sie die Anzahl der vom Modell berücksichtigten Wortoptionen fest begrenzen möchten. Niedrigere Werte (zum Beispiel`10`) führen zu einer besser vorhersehbaren Ausgabe, während höhere Werte mehr Abwechslung ermöglichen. Top-k kann mit Temperatur und Top-p kombiniert werden — wenn mehrere Probenahmekontrollen aktiv sind, wendet das Modell alle an, wobei bei jedem Schritt die restriktivste Methode verwendet wird.

Eingeführt in  
`v1.0`

Unterstützte Modelle  
Alle Amazon Nova-Modelle

Wie aktiviert man  
Legen Sie die `DEFAULT_TOP_K` Umgebungsvariable fest, wenn Sie das SageMaker Modell erstellen.

Standardwert  
`-1`(deaktiviert)

Zulässige Werte  
Ganzzahl `-1` oder größer. Wird verwendet`-1`, um alle Token zu berücksichtigen.

**Umgebungsvariable**

```
"Environment": {
    "DEFAULT_TOP_K": "50"
}
```

**Anmerkung**  
Sie können diese Standardeinstellung für jede Anfrage außer Kraft setzen, indem Sie den `top_k` Parameter in den Hauptteil der Anfrage aufnehmen.

## Standardmäßige maximale Anzahl neuer Tokens
<a name="nova-sagemaker-inference-container-feature-default-max-new-tokens"></a>

Legt die standardmäßige maximale Anzahl von Tokens (Wörtern oder Wortteilen) fest, die das Modell in einer Antwort generiert. Dieser Wert gilt für alle Anfragen, sofern er nicht überschrieben wird. Verwenden Sie diesen Wert, um die Antwortdauer zu kontrollieren und die Kosten auf Ihrem gesamten Endpunkt zu verwalten.

**Verwendungszweck:** Legen Sie diese Option fest, wenn Sie eine konsistente maximale Antwortdauer für alle Anfragen durchsetzen möchten. Stellen Sie es beispielsweise auf `256` für Aufgaben mit kurzen Antworten oder `2048` für die Generierung längerer Inhalte ein. Der zulässige Höchstwert hängt von dem für Ihren Endpunkt `CONTEXT_LENGTH` konfigurierten Wert ab, da Eingabe-Token und Ausgabetokens die Kontextlänge nicht überschreiten dürfen.

Eingeführt in  
`v1.0`

Unterstützte Modelle  
Alle Amazon Nova-Modelle

Wie aktiviert man  
Legen Sie die `DEFAULT_MAX_NEW_TOKENS` Umgebungsvariable fest, wenn Sie das SageMaker Modell erstellen.

Standardwert  
Die maximale Kontextlänge des Modells

Zulässige Werte  
Ganzzahl `1` oder größer

**Umgebungsvariable**

```
"Environment": {
    "DEFAULT_MAX_NEW_TOKENS": "512"
}
```

**Anmerkung**  
Sie können diese Standardeinstellung für jede Anfrage außer Kraft setzen, indem Sie den `max_completion_tokens` Parameter `max_tokens` oder in den Anforderungstext aufnehmen. Der zulässige Höchstwert hängt von dem für Ihren Endpunkt `CONTEXT_LENGTH` konfigurierten Wert ab.

## Standard-Logprobs
<a name="nova-sagemaker-inference-container-feature-default-logprobs"></a>

Legt die Standardanzahl von Log-Wahrscheinlichkeiten fest, die für jedes generierte Token zurückgegeben werden sollen. Eine Log-Wahrscheinlichkeit ist ein numerischer Wert, der angibt, wie sicher das Modell bei der Auswahl der einzelnen Wörter war. Wenn diese Option aktiviert ist, umfasst die Antwort diese Werte für jedes Ausgabetoken. Dies ist nützlich, um die Zuverlässigkeit des Modells zu bewerten, alternative Wortwahlen zu vergleichen und das Generierungsverhalten zu debuggen.

**Verwendungszweck:** Aktivieren Sie Logprobs, wenn Sie beurteilen müssen, wie zuverlässig das Modell in seiner Ausgabe ist, z. B. um Antworten mit geringer Zuverlässigkeit zur Überprüfung durch einen Menschen zu kennzeichnen oder um die Wahrscheinlichkeit verschiedener Abschlüsse zu vergleichen. Die Aktivierung von Logprobs kann die Reaktionslatenz und die Größe der Antwortnutzlast geringfügig erhöhen.

Eingeführt in  
`v1.0`

Unterstützte Modelle  
Alle Amazon Nova-Modelle

Wie aktiviert man  
Legen Sie die `DEFAULT_LOGPROBS` Umgebungsvariable fest, wenn Sie das SageMaker Modell erstellen.

Standardwert  
Disabled

Zulässige Werte  
Ganzzahl zwischen `1` und `20` (einschließlich)

**Umgebungsvariable**

```
"Environment": {
    "DEFAULT_LOGPROBS": "5"
}
```

**Anmerkung**  
Sie können diese Standardeinstellung für jede Anfrage außer Kraft setzen, indem Sie die `top_logprobs` Parameter `logprobs` und in den Anforderungstext aufnehmen. Die Aktivierung von Logprobs kann die Antwortlatenz geringfügig erhöhen.

## Spekulative Dekodierung mit Eagle3
<a name="nova-sagemaker-inference-container-feature-speculative-decoding"></a>

Die spekulative Eagle3-Dekodierung ist eine Optimierungstechnik, die die Textgenerierung beschleunigt. Es funktioniert, indem ein kleineres, schnelleres Entwurfsmodell verwendet wird, um mehrere Tokens im Voraus vorherzusagen, und diese Vorhersagen dann in einem einzigen Schritt mit dem Primärmodell verglichen. Wenn die Vorhersagen korrekt sind, generiert das Modell effektiv mehrere Token in der Zeit, die normalerweise für die Generierung eines Tokens erforderlich wäre. Das Primärmodell verifiziert immer die Entwurfs-Token, sodass das Endergebnis mit dem identisch ist, was das Primärmodell selbst produzieren würde — nur die Geschwindigkeit ändert sich, nicht die Qualität.

**Verwendungszweck:** Die spekulative Dekodierung von Eagle3 ist standardmäßig aktiviert und kommt den meisten Workloads zugute. Erwägen Sie, es nur zu deaktivieren, wenn Sie beim Debuggen ein unerwartetes Verhalten beobachten oder Leistungsmerkmale isolieren müssen.

Eingeführt in  
`v1.0`. Support für FP8-Quantisierung mit spekulativer Eagle3-Dekodierung wurde hinzugefügt. `v1.4`

Unterstützte Modelle  
Alle Amazon Nova-Modelle

Wie aktiviert man  
Die spekulative Dekodierung von Eagle3 ist standardmäßig aktiviert, ohne dass eine Konfiguration erforderlich ist. Verwenden Sie, um `DISABLE_SPECULATIVE_DECODING` es zu deaktivieren.

Standardwert  
`false`(Die spekulative Eagle3-Dekodierung ist aktiviert)

Zulässige Werte  
`true`, `false`

**Umgebungsvariable**

Das folgende Beispiel deaktiviert die spekulative Eagle3-Dekodierung:

```
"Environment": {
    "DISABLE_SPECULATIVE_DECODING": "true"
}
```

## KV-Cache-Datentyp
<a name="nova-sagemaker-inference-container-feature-kv-cache-dtype"></a>

Legt den Datentyp für den Schlüsselwert-Cache (KV) fest, der während der Inferenz verwendet wird. Der KV-Cache speichert den Speicher früherer Token des Modells in einer Konversation, sodass jedes neue Token generiert werden kann, ohne die gesamte Eingabe erneut verarbeiten zu müssen. Bei langen Sequenzen kann dieser Cache viel GPU-Speicher verbrauchen. Wenn Sie den KV-Cache auf einen Datentyp mit niedrigerer Genauigkeit wie FP8 einstellen, wird der Speicherverbrauch reduziert und der Durchsatz kann verbessert werden, allerdings auf Kosten geringfügiger numerischer Unterschiede bei der Ausgabe.

**Verwendungszweck: Aktivieren Sie den** FP8-KV-Cache, wenn Sie längere Kontextlängen oder eine höhere Parallelität auf Ihrer Instance unterstützen müssen. Dies ist besonders bei GPU-Instanzen mit begrenztem Arbeitsspeicher nützlich. Testen Sie Ihren Anwendungsfall, um sicherzustellen, dass die Ausgabequalität Ihren Anforderungen entspricht, da eine geringere Genauigkeit zu leicht unterschiedlichen Ergebnissen führen kann.

Eingeführt in  
`v1.3`

Unterstützte Modelle  
Alle Amazon Nova-Modelle

Wie aktiviert man  
Legen Sie die `KV_CACHE_DTYPE` Umgebungsvariable fest, wenn Sie das SageMaker Modell erstellen.

Standardwert  
Entspricht dem Datentyp des Modells

Zulässige Werte  
`fp8`

**Umgebungsvariable**

```
"Environment": {
    "KV_CACHE_DTYPE": "fp8"
}
```

**Anmerkung**  
Eine Änderung des KV-Cache-Datentyps kann zu geringfügig anderen Ausgaben als bei der Standardgenauigkeit führen. Testen Sie Ihren Anwendungsfall, um sicherzustellen, dass die Ausgabequalität Ihren Anforderungen entspricht.

## Quantisierung
<a name="nova-sagemaker-inference-container-feature-quantization"></a>

Legt den Quantisierungsdatentyp für Modellgewichte fest. Bei der Quantisierung werden die Gewichtungen des Modells in ein Format mit niedrigerer Genauigkeit komprimiert (FP8 statt der standardmäßigen höheren Genauigkeit), wodurch der für das Modell benötigte GPU-Speicher reduziert wird. Dies kann den Inferenzdurchsatz verbessern und es größeren Modellen ermöglichen, auf kleinere Instance-Typen zu passen, ohne dass die Ausgabequalität beeinträchtigt wird.

Verwendungszweck**: Verwenden Sie** die FP8-Quantisierung, wenn Sie die Speicherauslastung reduzieren möchten, um eine höhere Parallelität zu unterstützen, oder wenn Sie ein Modell an einen kleineren Instance-Typ anpassen möchten. Beachten Sie, dass bei einigen Kombinationen aus Modell und Instanztyp die automatische FP8-Quantisierung erforderlich ist — siehe die Warnung unten.

Eingeführt in  
`v1.3`

Unterstützte Modelle  
Alle Amazon Nova-Modelle

Wie aktiviert man  
Legen Sie die `QUANTIZATION_DTYPE` Umgebungsvariable fest, wenn Sie das SageMaker Modell erstellen.

Standardwert  
Deaktiviert. Die FP8-Quantisierung wird jedoch für bestimmte Kombinationen aus Modell und Instanztyp automatisch aktiviert. Siehe den Hinweis unten.

Zulässige Werte  
`fp8`

**Umgebungsvariable**

```
"Environment": {
    "QUANTIZATION_DTYPE": "fp8"
}
```

**Wichtig**  
Die folgenden Kombinationen aus Modell und Instanztyp erfordern eine FP8-Quantisierung. Für diese Konfigurationen wird die Quantisierung automatisch aktiviert und kann nicht deaktiviert oder außer Kraft gesetzt werden:  
Amazon Nova Lite auf `ml.g6.12xlarge` oder `ml.g6.24xlarge`
Nova 2 Lite an `ml.g6.48xlarge`
Einzelheiten zu allen anderen Konfigurationen finden [Unterstützte Modelle und Instanzen](nova-model-sagemaker-inference.md#nova-sagemaker-inference-supported) Sie unter.

## Anzahl der spekulativen Token
<a name="nova-sagemaker-inference-container-feature-num-speculative-tokens"></a>

Steuert, wie viele Token der Modellentwurf bei jedem spekulativen Dekodierungsschritt von Eagle3 voraussagt. Ein höherer Wert bedeutet, dass der Modellentwurf versucht, mehr Tokens gleichzeitig vorherzusagen, wodurch der Durchsatz verbessert werden kann, wenn die Prognosen korrekt sind. Wenn die Vorhersagen des Modellentwurfs häufig vom Primärmodell abweichen, kann ein niedrigerer Wert effizienter sein.

**Verwendungszweck:** Erhöhen Sie diesen Wert, wenn Ihr Workload vorhersehbare Ausgabemuster erzeugt (z. B. strukturierte Daten oder Vorlagentext), bei denen das Entwurfsmodell wahrscheinlich richtig raten wird. Verringern Sie ihn für kreative oder stark variable Ergebnisse, bei denen Vorhersagen weniger zuverlässig sind.

Eingeführt in  
`v1.4`

Unterstützte Modelle  
Alle Amazon Nova-Modelle

Wie aktiviert man  
Legen Sie die `NUM_SPECULATIVE_TOKENS` Umgebungsvariable fest, wenn Sie das SageMaker Modell erstellen.

Standardwert  
`3`

Zulässige Werte  
Ganzzahl zwischen `1` und `10` (einschließlich)

**Umgebungsvariable**

```
"Environment": {
    "NUM_SPECULATIVE_TOKENS": "5"
}
```

**Anmerkung**  
Diese Einstellung gilt nur, wenn die spekulative Eagle3-Dekodierung aktiviert ist (ist). `DISABLE_SPECULATIVE_DECODING` `false` Sie hat keine Auswirkung, wenn die spekulative Dekodierung deaktiviert ist oder wenn die Suffixdekodierung verwendet wird.

## Dekodierung von Suffixen
<a name="nova-sagemaker-inference-container-feature-suffix-decoding"></a>

Die Suffixdekodierung ist eine alternative Methode zur Beschleunigung der Textgenerierung. Anstatt ein separates Entwurfsmodell zu verwenden (wie es Eagle3 tut), sucht die Suffixdekodierung nach wiederholten Mustern im bereits generierten Text oder in der Eingabeaufforderung und verwendet diese Muster wieder, um future Token vorherzusagen. Dieser Ansatz funktioniert gut, wenn die Ausgabe wahrscheinlich wiederholte Phrasen, strukturierte Formate oder Inhalte enthält, die der Eingabe sehr ähnlich sind.

**Verwendungszweck: Verwenden Sie** die Suffixdekodierung für Aufgaben, bei denen die Ausgabe sich wiederholende Muster enthält, z. B. das Generieren strukturierter Daten, das Ausfüllen von Vorlagen oder das Zusammenfassen von Inhalten, bei denen Phrasen aus der Quelle wiederverwendet werden. Bei der Generierung für allgemeine Zwecke, bei denen die Ausgabe sehr unterschiedlich ist, bietet die Standardmethode Eagle3 in der Regel einen besseren Durchsatz.

Eingeführt in  
`v1.4`

Unterstützte Modelle  
Alle Amazon Nova-Modelle

Wie aktiviert man  
Stellen Sie die `SPECULATIVE_DECODING_METHOD` Umgebungsvariable auf ein, `suffix` wenn Sie das SageMaker Modell erstellen.

Standardwert  
`eagle3`

Zulässige Werte  
`eagle3`, `suffix`

**Umgebungsvariable**

```
"Environment": {
    "SPECULATIVE_DECODING_METHOD": "suffix"
}
```

**Anmerkung**  
Um die Suffix-Dekodierung zu verwenden, `DISABLE_SPECULATIVE_DECODING` muss sie auf `false` (Standard) gesetzt sein. Die Einstellung `DISABLE_SPECULATIVE_DECODING` auf `true` deaktiviert alle spekulativen Dekodierungsmethoden, einschließlich der Suffixdekodierung.