Sequence-to-Sequence Hyperparameter - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Sequence-to-Sequence Hyperparameter

In der folgenden Tabelle sind die Hyperparameter aufgeführt, die Sie beim Training mit dem Amazon-Algorithmus SageMaker Sequence-to-Sequence (seq2seq) festlegen können.

Name des Parameters Beschreibung
batch_size

Mini-Stapelgröße für das Gradientenverfahren.

Optional

Gültige Werte: positive Ganzzahl

Standardwert: 64

beam_size

Beam-Länge für die Beam-Suche. Wird während des Trainings zur bleu-Berechnung und im Rahmen der Inferenzausführung verwendet.

Optional

Gültige Werte: positive Ganzzahl

Standardwert: 5

bleu_sample_size

Anzahl der Instances, die aus dem Validierungsdatensatz zur Decodierung und Berechnung der bleu-Bewertung während des Trainings ausgewählt werden sollen. Legen Sie den Wert auf -1 fest, um einen vollständigen Validierungssatz zu verwenden (sofern bleu als optimized_metric ausgewählt wurde).

Optional

Gültige Werte: Ganzzahl

Standardwert: 0

bucket_width

Gibt (Quell-/Ziel-) Buckets mit bis zu (max_seq_len_source, max_seq_len_target) zurück. Für die Seite mit längeren Daten werden bucket_width-Schritte genutzt, für die kürzere Seite werden (um das durchschnittliche Ziel/Quell-Längenverhältnis) herunterskalierte Schritte eingesetzt. Wenn eine Seite die maximale Länge vor der anderen Seite erreicht, wird die Breite zusätzlicher Buckets für diese Seite auf den max_len-Wert dieser Seite festgelegt.

Optional

Gültige Werte: positive Ganzzahl

Standardwert: 10

bucketing_enabled

Mit false wird Bucketing deaktiviert, Unrolling für maximale Länge.

Optional

Gültige Werte: true oder false.

Standardwert: true

checkpoint_frequency_num_batches

Prüfpunkt und Auswertung alle x Stapel. Dieser Checkpoint-Hyperparameter wird an den seq2seq-Algorithmus übergeben, um SageMaker das beste Modell frühzeitig zu beenden und abzurufen. Das Checkpointing des Algorithmus wird lokal im Trainingscontainer des Algorithmus ausgeführt und ist nicht mit Checkpointing kompatibel. SageMaker Der Algorithmus speichert Checkpoints vorübergehend in einem lokalen Pfad und speichert das beste Modellartefakt im Modellausgabepfad in S3, nachdem der Trainingsauftrag beendet wurde.

Optional

Gültige Werte: positive Ganzzahl

Standardwert: 1000

checkpoint_threshold

Maximale Anzahl an Prüfpunkten, die das Modell in optimized_metric des Validierungsdatensatzes nicht korrigieren darf, bevor das Training gestoppt wird. Dieser Checkpoint-Hyperparameter wird an den seq2seq-Algorithmus übergeben, um SageMaker das beste Modell frühzeitig zu beenden und abzurufen. Das Checkpointing des Algorithmus wird lokal im Trainingscontainer des Algorithmus ausgeführt und ist nicht mit Checkpointing kompatibel. SageMaker Der Algorithmus speichert Checkpoints vorübergehend in einem lokalen Pfad und speichert das beste Modellartefakt im Modellausgabepfad in S3, nachdem der Trainingsauftrag beendet wurde.

Optional

Gültige Werte: positive Ganzzahl

Standardwert: 3

clip_gradient

Absolute Gradientenwerte, die diesen Wert überschreiten, abschneiden. Zur Deaktivierung auf einen negativen Wert setzen.

Optional

Gültige Werte: Gleitkommazahl

Standardwert: 1

cnn_activation_type

Gibt den zu verwendenden cnn-Aktivierungstyp an.

Optional

Gültige Werte: Zeichenfolge. Einer der Werte glu, relu, softrelu, sigmoid oder tanh.

Standardwert: glu

cnn_hidden_dropout

Dropout-Wahrscheinlichkeit für einen Ausfall von Convolutional (faltenden)-Layern.

Optional

Gültige Werte: Gleitkommazahl. Bereich [0,1].

Standardwert: 0

cnn_kernel_width_decoder

Kernelbreite für den cnn-Decoder.

Optional

Gültige Werte: positive Ganzzahl

Standardwert: 5

cnn_kernel_width_encoder

Kernelbreite für den cnn-Encoder.

Optional

Gültige Werte: positive Ganzzahl

Standardwert: 3

cnn_num_hidden

Anzahl der ausgeblendeten cnn-Einheiten für Encoder und Decoder.

Optional

Gültige Werte: positive Ganzzahl

Standardwert: 512

decoder_type

Decoder-Typ.

Optional

Gültige Werte: Zeichenfolge. Entweder rnn oder cnn.

Standardwert: rnn

embed_dropout_source

Dropout-Wahrscheinlichkeit für Einbettungen aufseiten der Quelle.

Optional

Gültige Werte: Gleitkommazahl. Bereich [0,1].

Standardwert: 0

embed_dropout_target

Dropout-Wahrscheinlichkeit für Einbettungen aufseiten des Ziels.

Optional

Gültige Werte: Gleitkommazahl. Bereich [0,1].

Standardwert: 0

encoder_type

Encoder-Typ. Die rnn-Architektur basiert auf dem Attention-Mechanismus von Bahdanau et al. und die cnn-Architektur stammt von Gehring et al.

Optional

Gültige Werte: Zeichenfolge. Entweder rnn oder cnn.

Standardwert: rnn

fixed_rate_lr_half_life

Halbwertzeit der Lernrate in Bezug auf die Prüfpunktanzahl von fixed_rate_*-Schedulern.

Optional

Gültige Werte: positive Ganzzahl

Standardwert: 10

learning_rate

Anfängliche Lernrate.

Optional

Gültige Werte: Gleitkommazahl

Standardwert: 0.0003

loss_type

Verlustfunktion für Trainings.

Optional

Gültige Werte: Zeichenfolge cross-entropy

Standardwert: cross-entropy

lr_scheduler_type

Scheduler-Typ der Lernrate. Mit plateau_reduce wird die Lernrate mit jedemoptimized_metric-Wert auf validation_accuracy-Plateaus reduziert. inv_t steht für inversen zeitlichen Verfall. learning_rate/(1+decay_rate*t)

Optional

Gültige Werte: Zeichenfolge. Entweder plateau_reduce, fixed_rate_inv_t oder fixed_rate_inv_sqrt_t.

Standardwert: plateau_reduce

max_num_batches

Maximale Anzahl der zu verarbeitenden Updates/Stapel. -1 für unendlich.

Optional

Gültige Werte: Ganzzahl

Standardwert: -1

max_num_epochs

Maximale Anzahl der Epochen, die die Trainingsdaten durchlaufen können, bevor die Anpassung beendet wird. Das Training wird so lange fortgesetzt, bis diese Anzahl von Epochen erreicht ist (auch wenn die Validierungsgenauigkeit nicht durch die Übergabe dieses Parameters verbessert wird). Wird dieser Parameter nicht übergeben, wird er ignoriert.

Optional

Gültige Werte: Eine positive Ganzzahl und kleiner als oder gleich max_num_epochs.

Standardwert: keine

max_seq_len_source

Maximale Länge der Quellsequenz. Längere Sequenzen werden auf diese Länge gekürzt.

Optional

Gültige Werte: positive Ganzzahl

Standardwert: 100

max_seq_len_target

Maximale Länge der Zielsequenz. Längere Sequenzen werden auf diese Länge gekürzt.

Optional

Gültige Werte: positive Ganzzahl

Standardwert: 100

min_num_epochs

Mindestanzahl der Epochen, die das Training ausgeführt werden muss, bevor sie über early_stopping-Bedingungen angehalten wird.

Optional

Gültige Werte: positive Ganzzahl

Standardwert: 0

momentum

Für sgd verwendete Momentum-Konstante. Übergeben Sie diesen Parameter nicht, wenn Sie adam oder rmsprop nutzen.

Optional

Gültige Werte: Gleitkommazahl

Standardwert: keine

num_embed_source

Einbettende Größe für Quell-Token.

Optional

Gültige Werte: positive Ganzzahl

Standardwert: 512

num_embed_target

Einbettende Größe für Ziel-Token.

Optional

Gültige Werte: positive Ganzzahl

Standardwert: 512

num_layers_decoder

Layer-Anzahl für den Decoder-Typ rnn oder cnn.

Optional

Gültige Werte: positive Ganzzahl

Standardwert: 1

num_layers_encoder

Layer-Anzahl für den Encoder-Typ rnn oder cnn.

Optional

Gültige Werte: positive Ganzzahl

Standardwert: 1

optimized_metric

Metriken zur Optimierung des frühzeitigen Beendens.

Optional

Gültige Werte: Zeichenfolge. Entweder perplexity, accuracy oder bleu.

Standardwert: perplexity

optimizer_type

Auswählbare Optimierung.

Optional

Gültige Werte: Zeichenfolge. Entweder adam, sgd oder rmsprop.

Standardwert: adam

plateau_reduce_lr_factor

Faktor der Lernratenmultiplikation (für plateau_reduce).

Optional

Gültige Werte: Gleitkommazahl

Standardwert: 0.5

plateau_reduce_lr_threshold

Beim plateau_reduce-Scheduler wird die Lernrate mit einem Reduzierungsfaktor multipliziert, wenn optimized_metric durch diese zahlreichen Prüfpunkte nicht verbessert werden konnte.

Optional

Gültige Werte: positive Ganzzahl

Standardwert: 3

rnn_attention_in_upper_layers

Lenken Sie Ihre Aufmerksamkeit auf die oberen Schichten von RNN, wie Google NMT Paper. Dies ist nur möglich, wenn mehrere Layer verwendet werden.

Optional

Gültige Werte: Boolesch (true oder false)

Standardwert: true

rnn_attention_num_hidden

Anzahl der ausgeblendeten Einheiten für Attention-Layer. Der Standardwert ist rnn_num_hidden.

Optional

Gültige Werte: positive Ganzzahl

Standardwert: rnn_num_hidden

rnn_attention_type

Attention-Modell für Encoder. mlp bezieht sich auf "concat" und bilinear bezieht sich auf "general" im Whitepaper von Luong et al.

Optional

Gültige Werte: Zeichenfolge. Einer der Werte dot, fixed, mlp oder bilinear.

Standardwert: mlp

rnn_cell_type

Spezifischer Typ der rnn-Architektur.

Optional

Gültige Werte: Zeichenfolge. Entweder lstm oder gru.

Standardwert: lstm

rnn_decoder_state_init

Gibt an, wie Status von rnn-Decodern aus Encodern initialisiert werden.

Optional

Gültige Werte: Zeichenfolge. Entweder last, avg oder zero.

Standardwert: last

rnn_first_residual_layer

Erster rnn-Layer mit einer residualen Verbindung (nur möglich, sofern die Anzahl der Layer im Encoder oder Decoder mehr als 1 beträgt).

Optional

Gültige Werte: positive Ganzzahl

Standardwert: 2

rnn_num_hidden

Anzahl der ausgeblendeten rnn-Einheiten für Encoder und Decoder. Dies muss ein Vielfaches von 2 sein, da der Algorithmus standardmäßig das bidirektionale Langzeit-Kurzzeitgedächtnis (LSTM) verwendet.

Optional

Gültige Werte: positive gerade Ganzzahl

Standardwert: 1024

rnn_residual_connections

Fügt eine residuale Verbindung zum gestapelten rnn hinzu. Die Anzahl der Layer muss mehr als 1 betragen.

Optional

Gültige Werte: Boolesch (true oder false)

Standardwert: false

rnn_decoder_hidden_dropout

Dropout-Wahrscheinlichkeit für ausgeblendeten Status als Kombination aus Kontext und ausgeblendetem rnn-Status im Decoder.

Optional

Gültige Werte: Gleitkommazahl. Bereich [0,1].

Standardwert: 0

training_metric

Metriken zur Trainingsüberwachung mithilfe von Validierungsdaten.

Optional

Gültige Werte: Zeichenfolge. Entweder perplexity oder accuracy.

Standardwert: perplexity

weight_decay

Konstante des Gewichtungszerfalls.

Optional

Gültige Werte: Gleitkommazahl

Standardwert: 0

weight_init_scale

Skala der Gewichtungsinitialisierung (für Initialisierungen der Typen uniform und xavier).

Optional

Gültige Werte: Gleitkommazahl

Standardwert: 2.34

weight_init_type

Typ der Gewichtungsinitialisierung.

Optional

Gültige Werte: Zeichenfolge. Entweder uniform oder xavier.

Standardwert: xavier

xavier_factor_type

Xavier-Faktortyp.

Optional

Gültige Werte: Zeichenfolge. Entweder in, out oder avg.

Standardwert: in