

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Sequence-to-Sequence Hyperparameter
<a name="seq-2-seq-hyperparameters"></a>

In der folgenden Tabelle sind die Hyperparameter aufgeführt, die Sie beim Training mit dem Amazon SageMaker AI-Algorithmus Sequence-to-Sequence (seq2seq) festlegen können.


| Name des Parameters | Description | 
| --- | --- | 
| batch\$1size | Mini-Stapelgröße für das Gradientenverfahren. **Optional** Gültige Werte: positive Ganzzahl Standardwert: 64 | 
| beam\$1size | Beam-Länge für die Beam-Suche. Wird während des Trainings zur `bleu`-Berechnung und im Rahmen der Inferenzausführung verwendet. **Optional** Gültige Werte: positive Ganzzahl Standardwert: 5 | 
| bleu\$1sample\$1size | Anzahl der Instances, die aus dem Validierungsdatensatz zur Decodierung und Berechnung der `bleu`-Bewertung während des Trainings ausgewählt werden sollen. Legen Sie den Wert auf -1 fest, um einen vollständigen Validierungssatz zu verwenden (sofern `bleu` als `optimized_metric` ausgewählt wurde). **Optional** Gültige Werte: Ganzzahl Standardwert: 0 | 
| bucket\$1width | Gibt (Quell-/Ziel-) Buckets mit bis zu (`max_seq_len_source`, `max_seq_len_target`) zurück. Die längere Seite der Daten verwendet Schritte von, `bucket_width` während die kürzere Seite Schritte verwendet, die um das durchschnittliche Längenverhältnis herunterskaliert sind. target/source Wenn eine Seite die maximale Länge vor der anderen Seite erreicht, wird die Breite zusätzlicher Buckets für diese Seite auf den `max_len`-Wert dieser Seite festgelegt. **Optional** Gültige Werte: positive Ganzzahl Standardwert: 10 | 
| bucketing\$1enabled | Mit `false` wird Bucketing deaktiviert, Unrolling für maximale Länge. **Optional** Gültige Werte: `true` oder `false`. Standardwert: `true` | 
| checkpoint\$1frequency\$1num\$1batches | Prüfpunkt und Auswertung alle x Stapel. Dieser Checkpoint-Hyperparameter wird an den seq2seq-Algorithmus der SageMaker KI übergeben, damit er das System frühzeitig stoppt und das beste Modell abruft. Das Checkpointing des Algorithmus wird lokal im Trainingscontainer des Algorithmus ausgeführt und ist nicht mit KI-Checkpointing kompatibel. SageMaker Der Algorithmus speichert Checkpoints vorübergehend in einem lokalen Pfad und speichert das beste Modellartefakt im Modellausgabepfad in S3, nachdem der Trainingsauftrag beendet wurde. **Optional** Gültige Werte: positive Ganzzahl Standardwert: 1000 | 
| checkpoint\$1threshold | Maximale Anzahl an Prüfpunkten, die das Modell in `optimized_metric` des Validierungsdatensatzes nicht korrigieren darf, bevor das Training gestoppt wird. Dieser Checkpoint-Hyperparameter wird an den seq2seq-Algorithmus der SageMaker KI übergeben, um ihn frühzeitig zu stoppen und das beste Modell abzurufen. Das Checkpointing des Algorithmus wird lokal im Trainingscontainer des Algorithmus ausgeführt und ist nicht mit KI-Checkpointing kompatibel. SageMaker Der Algorithmus speichert Checkpoints vorübergehend in einem lokalen Pfad und speichert das beste Modellartefakt im Modellausgabepfad in S3, nachdem der Trainingsauftrag beendet wurde. **Optional** Gültige Werte: positive Ganzzahl Standardwert: 3 | 
| clip\$1gradient | Absolute Gradientenwerte, die diesen Wert überschreiten, abschneiden. Zur Deaktivierung auf einen negativen Wert setzen. **Optional** Gültige Werte: Gleitkommazahl Standardwert: 1 | 
| cnn\$1activation\$1type | Gibt den zu verwendenden `cnn`-Aktivierungstyp an. **Optional** Gültige Werte: Zeichenfolge. Einer der Werte `glu`, `relu`, `softrelu`, `sigmoid` oder `tanh`. Standardwert: `glu` | 
| cnn\$1hidden\$1dropout | Dropout-Wahrscheinlichkeit für einen Ausfall von Convolutional (faltenden)-Layern. **Optional** Gültige Werte: Gleitkommazahl. Bereich [0,1]. Standardwert: 0 | 
| cnn\$1kernel\$1width\$1decoder | Kernelbreite für den `cnn`-Decoder. **Optional** Gültige Werte: positive Ganzzahl Standardwert: 5 | 
| cnn\$1kernel\$1width\$1encoder | Kernelbreite für den `cnn`-Encoder. **Optional** Gültige Werte: positive Ganzzahl Standardwert: 3 | 
| cnn\$1num\$1hidden | Anzahl der ausgeblendeten `cnn`-Einheiten für Encoder und Decoder. **Optional** Gültige Werte: positive Ganzzahl Standardwert: 512 | 
| decoder\$1type | Decoder-Typ. **Optional** Gültige Werte: Zeichenfolge. Entweder `rnn` oder `cnn`. Standardwert: *rnn* | 
| embed\$1dropout\$1source | Dropout-Wahrscheinlichkeit für Einbettungen aufseiten der Quelle. **Optional** Gültige Werte: Gleitkommazahl. Bereich [0,1]. Standardwert: 0 | 
| embed\$1dropout\$1target | Dropout-Wahrscheinlichkeit für Einbettungen aufseiten des Ziels. **Optional** Gültige Werte: Gleitkommazahl. Bereich [0,1]. Standardwert: 0 | 
| encoder\$1type | Encoder-Typ. Die `rnn`-Architektur basiert auf dem Attention-Mechanismus von Bahdanau et al. und die *cnn*-Architektur stammt von Gehring et al. **Optional** Gültige Werte: Zeichenfolge. Entweder `rnn` oder `cnn`. Standardwert: `rnn` | 
| fixed\$1rate\$1lr\$1half\$1life | Halbwertzeit der Lernrate in Bezug auf die Prüfpunktanzahl von `fixed_rate_`\$1-Schedulern. **Optional** Gültige Werte: positive Ganzzahl Standardwert: 10 | 
| learning\$1rate | Anfängliche Lernrate. **Optional** Gültige Werte: Gleitkommazahl Standardwert: 0.0003 | 
| loss\$1type | Verlustfunktion für Trainings. **Optional** Gültige Werte: Zeichenfolge `cross-entropy` Standardwert: `cross-entropy` | 
| lr\$1scheduler\$1type | Scheduler-Typ der Lernrate. Mit `plateau_reduce` wird die Lernrate mit jedem`optimized_metric`-Wert auf `validation_accuracy`-Plateaus reduziert. `inv_t` steht für inversen zeitlichen Verfall. `learning_rate`/(1\$1`decay_rate`\$1t) **Optional** Gültige Werte: Zeichenfolge. Entweder `plateau_reduce`, `fixed_rate_inv_t` oder `fixed_rate_inv_sqrt_t`. Standardwert: `plateau_reduce` | 
| max\$1num\$1batches | Maximale Anzahl von updates/batches zu verarbeitenden. -1 für unendlich. **Optional** Gültige Werte: Ganzzahl Standardwert: -1 | 
| max\$1num\$1epochs | Maximale Anzahl der Epochen, die die Trainingsdaten durchlaufen können, bevor die Anpassung beendet wird. Das Training wird so lange fortgesetzt, bis diese Anzahl von Epochen erreicht ist (auch wenn die Validierungsgenauigkeit nicht durch die Übergabe dieses Parameters verbessert wird). Wird dieser Parameter nicht übergeben, wird er ignoriert. **Optional** Gültige Werte: Eine positive Ganzzahl und kleiner als oder gleich max\$1num\$1epochs. Standardwert: keine | 
| max\$1seq\$1len\$1source | Maximale Länge der Quellsequenz. Längere Sequenzen werden auf diese Länge gekürzt. **Optional** Gültige Werte: positive Ganzzahl Standardwert: 100  | 
| max\$1seq\$1len\$1target | Maximale Länge der Zielsequenz. Längere Sequenzen werden auf diese Länge gekürzt. **Optional** Gültige Werte: positive Ganzzahl Standardwert: 100 | 
| min\$1num\$1epochs | Mindestanzahl der Epochen, die das Training ausgeführt werden muss, bevor sie über `early_stopping`-Bedingungen angehalten wird. **Optional** Gültige Werte: positive Ganzzahl Standardwert: 0 | 
| momentum | Für `sgd` verwendete Momentum-Konstante. Übergeben Sie diesen Parameter nicht, wenn Sie `adam` oder `rmsprop` nutzen. **Optional** Gültige Werte: Gleitkommazahl Standardwert: keine | 
| num\$1embed\$1source | Einbettende Größe für Quell-Token. **Optional** Gültige Werte: positive Ganzzahl Standardwert: 512 | 
| num\$1embed\$1target | Einbettende Größe für Ziel-Token. **Optional** Gültige Werte: positive Ganzzahl Standardwert: 512 | 
| num\$1layers\$1decoder | Layer-Anzahl für den Decoder-Typ *rnn* oder *cnn*. **Optional** Gültige Werte: positive Ganzzahl Standardwert: 1 | 
| num\$1layers\$1encoder | Layer-Anzahl für den Encoder-Typ `rnn` oder `cnn`. **Optional** Gültige Werte: positive Ganzzahl Standardwert: 1 | 
| optimized\$1metric | Metriken zur Optimierung des frühzeitigen Beendens. **Optional** Gültige Werte: Zeichenfolge. Entweder `perplexity`, `accuracy` oder `bleu`. Standardwert: `perplexity` | 
| optimizer\$1type | Auswählbare Optimierung. **Optional** Gültige Werte: Zeichenfolge. Entweder `adam`, `sgd` oder `rmsprop`. Standardwert: `adam` | 
| plateau\$1reduce\$1lr\$1factor | Faktor der Lernratenmultiplikation (für `plateau_reduce`). **Optional** Gültige Werte: Gleitkommazahl Standardwert: 0.5 | 
| plateau\$1reduce\$1lr\$1threshold | Beim `plateau_reduce`-Scheduler wird die Lernrate mit einem Reduzierungsfaktor multipliziert, wenn `optimized_metric` durch diese zahlreichen Prüfpunkte nicht verbessert werden konnte. **Optional** Gültige Werte: positive Ganzzahl Standardwert: 3 | 
| rnn\$1attention\$1in\$1upper\$1layers | Attention-Übergabe an die oberen *rnn*-Layer wie Google NMT-paper Dies ist nur möglich, wenn mehrere Layer verwendet werden. **Optional** Gültige Werte: Boolesch (`true` oder `false`) Standardwert: `true` | 
| rnn\$1attention\$1num\$1hidden | Anzahl der ausgeblendeten Einheiten für Attention-Layer. Der Standardwert ist `rnn_num_hidden`. **Optional** Gültige Werte: positive Ganzzahl Standardwert: `rnn_num_hidden` | 
| rnn\$1attention\$1type | Attention-Modell für Encoder. `mlp` bezieht sich auf "concat" und bilinear bezieht sich auf "general" im Whitepaper von Luong et al. **Optional** Gültige Werte: Zeichenfolge. Einer der Werte `dot`, `fixed`, `mlp` oder `bilinear`. Standardwert: `mlp` | 
| rnn\$1cell\$1type | Spezifischer Typ der `rnn`-Architektur. **Optional** Gültige Werte: Zeichenfolge. Entweder `lstm` oder `gru`. Standardwert: `lstm` | 
| rnn\$1decoder\$1state\$1init | Gibt an, wie Status von `rnn`-Decodern aus Encodern initialisiert werden. **Optional** Gültige Werte: Zeichenfolge. Entweder `last`, `avg` oder `zero`. Standardwert: `last` | 
| rnn\$1first\$1residual\$1layer | Erster *rnn*-Layer mit einer residualen Verbindung (nur möglich, sofern die Anzahl der Layer im Encoder oder Decoder mehr als 1 beträgt). **Optional** Gültige Werte: positive Ganzzahl Standardwert: 2 | 
| rnn\$1num\$1hidden | Anzahl der ausgeblendeten *rnn*-Einheiten für Encoder und Decoder. Dieser Wert muss ein Vielfaches von 2 sein, da der Algorithmus standardmäßig den bidirektionalen Langzeit-Kurzzeitspeicher (LSTM, Long Term Short Term Memory) verwendet. **Optional** Gültige Werte: positive gerade Ganzzahl Standardwert: 1024 | 
| rnn\$1residual\$1connections | Fügt eine residuale Verbindung zum gestapelten *rnn* hinzu. Die Anzahl der Layer muss mehr als 1 betragen. **Optional** Gültige Werte: Boolesch (`true` oder `false`) Standardwert: `false` | 
| rnn\$1decoder\$1hidden\$1dropout | Dropout-Wahrscheinlichkeit für ausgeblendeten Status als Kombination aus Kontext und ausgeblendetem *rnn*-Status im Decoder. **Optional** Gültige Werte: Gleitkommazahl. Bereich [0,1]. Standardwert: 0 | 
| training\$1metric | Metriken zur Trainingsüberwachung mithilfe von Validierungsdaten. **Optional** Gültige Werte: Zeichenfolge. Entweder `perplexity` oder `accuracy`. Standardwert: `perplexity` | 
| weight\$1decay | Konstante des Gewichtungszerfalls. **Optional** Gültige Werte: Gleitkommazahl Standardwert: 0 | 
| weight\$1init\$1scale | Skala der Gewichtungsinitialisierung (für Initialisierungen der Typen `uniform` und `xavier`).  **Optional** Gültige Werte: Gleitkommazahl Standardwert: 2.34 | 
| weight\$1init\$1type | Typ der Gewichtungsinitialisierung.  **Optional** Gültige Werte: Zeichenfolge. Entweder `uniform` oder `xavier`. Standardwert: `xavier` | 
| xavier\$1factor\$1type | Xavier-Faktortyp. **Optional** Gültige Werte: Zeichenfolge. Entweder `in`, `out` oder `avg`. Standardwert: `in` | 