Sequence-to-Sequence Hyperparameter

In der folgenden Tabelle sind die Hyperparameter aufgeführt, die Sie beim Training mit dem Amazon-Algorithmus SageMaker Sequence-to-Sequence (seq2seq) festlegen können.

Name des Parameters	Beschreibung
`batch_size`	Mini-Stapelgröße für das Gradientenverfahren. Optional Gültige Werte: positive Ganzzahl Standardwert: 64
`beam_size`	Beam-Länge für die Beam-Suche. Wird während des Trainings zur `bleu`-Berechnung und im Rahmen der Inferenzausführung verwendet. Optional Gültige Werte: positive Ganzzahl Standardwert: 5
`bleu_sample_size`	Anzahl der Instances, die aus dem Validierungsdatensatz zur Decodierung und Berechnung der `bleu`-Bewertung während des Trainings ausgewählt werden sollen. Legen Sie den Wert auf -1 fest, um einen vollständigen Validierungssatz zu verwenden (sofern `bleu` als `optimized_metric` ausgewählt wurde). Optional Gültige Werte: Ganzzahl Standardwert: 0
`bucket_width`	Gibt (Quell-/Ziel-) Buckets mit bis zu (`max_seq_len_source`, `max_seq_len_target`) zurück. Für die Seite mit längeren Daten werden `bucket_width`-Schritte genutzt, für die kürzere Seite werden (um das durchschnittliche Ziel/Quell-Längenverhältnis) herunterskalierte Schritte eingesetzt. Wenn eine Seite die maximale Länge vor der anderen Seite erreicht, wird die Breite zusätzlicher Buckets für diese Seite auf den `max_len`-Wert dieser Seite festgelegt. Optional Gültige Werte: positive Ganzzahl Standardwert: 10
`bucketing_enabled`	Mit `false` wird Bucketing deaktiviert, Unrolling für maximale Länge. Optional Gültige Werte: `true` oder `false`. Standardwert: `true`
`checkpoint_frequency_num_batches`	Prüfpunkt und Auswertung alle x Stapel. Dieser Checkpoint-Hyperparameter wird an den seq2seq-Algorithmus übergeben, um SageMaker das beste Modell frühzeitig zu beenden und abzurufen. Das Checkpointing des Algorithmus wird lokal im Trainingscontainer des Algorithmus ausgeführt und ist nicht mit Checkpointing kompatibel. SageMaker Der Algorithmus speichert Checkpoints vorübergehend in einem lokalen Pfad und speichert das beste Modellartefakt im Modellausgabepfad in S3, nachdem der Trainingsauftrag beendet wurde. Optional Gültige Werte: positive Ganzzahl Standardwert: 1000
`checkpoint_threshold`	Maximale Anzahl an Prüfpunkten, die das Modell in `optimized_metric` des Validierungsdatensatzes nicht korrigieren darf, bevor das Training gestoppt wird. Dieser Checkpoint-Hyperparameter wird an den seq2seq-Algorithmus übergeben, um SageMaker das beste Modell frühzeitig zu beenden und abzurufen. Das Checkpointing des Algorithmus wird lokal im Trainingscontainer des Algorithmus ausgeführt und ist nicht mit Checkpointing kompatibel. SageMaker Der Algorithmus speichert Checkpoints vorübergehend in einem lokalen Pfad und speichert das beste Modellartefakt im Modellausgabepfad in S3, nachdem der Trainingsauftrag beendet wurde. Optional Gültige Werte: positive Ganzzahl Standardwert: 3
`clip_gradient`	Absolute Gradientenwerte, die diesen Wert überschreiten, abschneiden. Zur Deaktivierung auf einen negativen Wert setzen. Optional Gültige Werte: Gleitkommazahl Standardwert: 1
`cnn_activation_type`	Gibt den zu verwendenden `cnn`-Aktivierungstyp an. Optional Gültige Werte: Zeichenfolge. Einer der Werte `glu`, `relu`, `softrelu`, `sigmoid` oder `tanh`. Standardwert: `glu`
`cnn_hidden_dropout`	Dropout-Wahrscheinlichkeit für einen Ausfall von Convolutional (faltenden)-Layern. Optional Gültige Werte: Gleitkommazahl. Bereich [0,1]. Standardwert: 0
`cnn_kernel_width_decoder`	Kernelbreite für den `cnn`-Decoder. Optional Gültige Werte: positive Ganzzahl Standardwert: 5
`cnn_kernel_width_encoder`	Kernelbreite für den `cnn`-Encoder. Optional Gültige Werte: positive Ganzzahl Standardwert: 3
`cnn_num_hidden`	Anzahl der ausgeblendeten `cnn`-Einheiten für Encoder und Decoder. Optional Gültige Werte: positive Ganzzahl Standardwert: 512
`decoder_type`	Decoder-Typ. Optional Gültige Werte: Zeichenfolge. Entweder `rnn` oder `cnn`. Standardwert: rnn
`embed_dropout_source`	Dropout-Wahrscheinlichkeit für Einbettungen aufseiten der Quelle. Optional Gültige Werte: Gleitkommazahl. Bereich [0,1]. Standardwert: 0
`embed_dropout_target`	Dropout-Wahrscheinlichkeit für Einbettungen aufseiten des Ziels. Optional Gültige Werte: Gleitkommazahl. Bereich [0,1]. Standardwert: 0
`encoder_type`	Encoder-Typ. Die `rnn`-Architektur basiert auf dem Attention-Mechanismus von Bahdanau et al. und die cnn-Architektur stammt von Gehring et al. Optional Gültige Werte: Zeichenfolge. Entweder `rnn` oder `cnn`. Standardwert: `rnn`
`fixed_rate_lr_half_life`	Halbwertzeit der Lernrate in Bezug auf die Prüfpunktanzahl von `fixed_rate_`-Schedulern. Optional* Gültige Werte: positive Ganzzahl Standardwert: 10
`learning_rate`	Anfängliche Lernrate. Optional Gültige Werte: Gleitkommazahl Standardwert: 0.0003
`loss_type`	Verlustfunktion für Trainings. Optional Gültige Werte: Zeichenfolge `cross-entropy` Standardwert: `cross-entropy`
`lr_scheduler_type`	Scheduler-Typ der Lernrate. Mit `plateau_reduce` wird die Lernrate mit jedem`optimized_metric`-Wert auf `validation_accuracy`-Plateaus reduziert. `inv_t` steht für inversen zeitlichen Verfall. `learning_rate`/(1+`decay_rate`t) Optional* Gültige Werte: Zeichenfolge. Entweder `plateau_reduce`, `fixed_rate_inv_t` oder `fixed_rate_inv_sqrt_t`. Standardwert: `plateau_reduce`
`max_num_batches`	Maximale Anzahl der zu verarbeitenden Updates/Stapel. -1 für unendlich. Optional Gültige Werte: Ganzzahl Standardwert: -1
`max_num_epochs`	Maximale Anzahl der Epochen, die die Trainingsdaten durchlaufen können, bevor die Anpassung beendet wird. Das Training wird so lange fortgesetzt, bis diese Anzahl von Epochen erreicht ist (auch wenn die Validierungsgenauigkeit nicht durch die Übergabe dieses Parameters verbessert wird). Wird dieser Parameter nicht übergeben, wird er ignoriert. Optional Gültige Werte: Eine positive Ganzzahl und kleiner als oder gleich max_num_epochs. Standardwert: keine
`max_seq_len_source`	Maximale Länge der Quellsequenz. Längere Sequenzen werden auf diese Länge gekürzt. Optional Gültige Werte: positive Ganzzahl Standardwert: 100
`max_seq_len_target`	Maximale Länge der Zielsequenz. Längere Sequenzen werden auf diese Länge gekürzt. Optional Gültige Werte: positive Ganzzahl Standardwert: 100
`min_num_epochs`	Mindestanzahl der Epochen, die das Training ausgeführt werden muss, bevor sie über `early_stopping`-Bedingungen angehalten wird. Optional Gültige Werte: positive Ganzzahl Standardwert: 0
`momentum`	Für `sgd` verwendete Momentum-Konstante. Übergeben Sie diesen Parameter nicht, wenn Sie `adam` oder `rmsprop` nutzen. Optional Gültige Werte: Gleitkommazahl Standardwert: keine
`num_embed_source`	Einbettende Größe für Quell-Token. Optional Gültige Werte: positive Ganzzahl Standardwert: 512
`num_embed_target`	Einbettende Größe für Ziel-Token. Optional Gültige Werte: positive Ganzzahl Standardwert: 512
`num_layers_decoder`	Layer-Anzahl für den Decoder-Typ rnn oder cnn. Optional Gültige Werte: positive Ganzzahl Standardwert: 1
`num_layers_encoder`	Layer-Anzahl für den Encoder-Typ `rnn` oder `cnn`. Optional Gültige Werte: positive Ganzzahl Standardwert: 1
`optimized_metric`	Metriken zur Optimierung des frühzeitigen Beendens. Optional Gültige Werte: Zeichenfolge. Entweder `perplexity`, `accuracy` oder `bleu`. Standardwert: `perplexity`
`optimizer_type`	Auswählbare Optimierung. Optional Gültige Werte: Zeichenfolge. Entweder `adam`, `sgd` oder `rmsprop`. Standardwert: `adam`
`plateau_reduce_lr_factor`	Faktor der Lernratenmultiplikation (für `plateau_reduce`). Optional Gültige Werte: Gleitkommazahl Standardwert: 0.5
`plateau_reduce_lr_threshold`	Beim `plateau_reduce`-Scheduler wird die Lernrate mit einem Reduzierungsfaktor multipliziert, wenn `optimized_metric` durch diese zahlreichen Prüfpunkte nicht verbessert werden konnte. Optional Gültige Werte: positive Ganzzahl Standardwert: 3
`rnn_attention_in_upper_layers`	Lenken Sie Ihre Aufmerksamkeit auf die oberen Schichten von RNN, wie Google NMT Paper. Dies ist nur möglich, wenn mehrere Layer verwendet werden. Optional Gültige Werte: Boolesch (`true` oder `false`) Standardwert: `true`
`rnn_attention_num_hidden`	Anzahl der ausgeblendeten Einheiten für Attention-Layer. Der Standardwert ist `rnn_num_hidden`. Optional Gültige Werte: positive Ganzzahl Standardwert: `rnn_num_hidden`
`rnn_attention_type`	Attention-Modell für Encoder. `mlp` bezieht sich auf "concat" und bilinear bezieht sich auf "general" im Whitepaper von Luong et al. Optional Gültige Werte: Zeichenfolge. Einer der Werte `dot`, `fixed`, `mlp` oder `bilinear`. Standardwert: `mlp`
`rnn_cell_type`	Spezifischer Typ der `rnn`-Architektur. Optional Gültige Werte: Zeichenfolge. Entweder `lstm` oder `gru`. Standardwert: `lstm`
`rnn_decoder_state_init`	Gibt an, wie Status von `rnn`-Decodern aus Encodern initialisiert werden. Optional Gültige Werte: Zeichenfolge. Entweder `last`, `avg` oder `zero`. Standardwert: `last`
`rnn_first_residual_layer`	Erster rnn-Layer mit einer residualen Verbindung (nur möglich, sofern die Anzahl der Layer im Encoder oder Decoder mehr als 1 beträgt). Optional Gültige Werte: positive Ganzzahl Standardwert: 2
`rnn_num_hidden`	Anzahl der ausgeblendeten rnn-Einheiten für Encoder und Decoder. Dies muss ein Vielfaches von 2 sein, da der Algorithmus standardmäßig das bidirektionale Langzeit-Kurzzeitgedächtnis (LSTM) verwendet. Optional Gültige Werte: positive gerade Ganzzahl Standardwert: 1024
`rnn_residual_connections`	Fügt eine residuale Verbindung zum gestapelten rnn hinzu. Die Anzahl der Layer muss mehr als 1 betragen. Optional Gültige Werte: Boolesch (`true` oder `false`) Standardwert: `false`
`rnn_decoder_hidden_dropout`	Dropout-Wahrscheinlichkeit für ausgeblendeten Status als Kombination aus Kontext und ausgeblendetem rnn-Status im Decoder. Optional Gültige Werte: Gleitkommazahl. Bereich [0,1]. Standardwert: 0
`training_metric`	Metriken zur Trainingsüberwachung mithilfe von Validierungsdaten. Optional Gültige Werte: Zeichenfolge. Entweder `perplexity` oder `accuracy`. Standardwert: `perplexity`
`weight_decay`	Konstante des Gewichtungszerfalls. Optional Gültige Werte: Gleitkommazahl Standardwert: 0
`weight_init_scale`	Skala der Gewichtungsinitialisierung (für Initialisierungen der Typen `uniform` und `xavier`). Optional Gültige Werte: Gleitkommazahl Standardwert: 2.34
`weight_init_type`	Typ der Gewichtungsinitialisierung. Optional Gültige Werte: Zeichenfolge. Entweder `uniform` oder `xavier`. Standardwert: `xavier`
`xavier_factor_type`	Xavier-Faktortyp. Optional Gültige Werte: Zeichenfolge. Entweder `in`, `out` oder `avg`. Standardwert: `in`

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

So funktioniert’s

Modell-Abstimmung