Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Sequence-to-Sequence Hyperparameter
In der folgenden Tabelle sind die Hyperparameter aufgeführt, die Sie beim Training mit dem Amazon-Algorithmus SageMaker Sequence-to-Sequence (seq2seq) festlegen können.
Name des Parameters | Beschreibung |
---|---|
batch_size |
Mini-Stapelgröße für das Gradientenverfahren. Optional Gültige Werte: positive Ganzzahl Standardwert: 64 |
beam_size |
Beam-Länge für die Beam-Suche. Wird während des Trainings zur Optional Gültige Werte: positive Ganzzahl Standardwert: 5 |
bleu_sample_size |
Anzahl der Instances, die aus dem Validierungsdatensatz zur Decodierung und Berechnung der Optional Gültige Werte: Ganzzahl Standardwert: 0 |
bucket_width |
Gibt (Quell-/Ziel-) Buckets mit bis zu ( Optional Gültige Werte: positive Ganzzahl Standardwert: 10 |
bucketing_enabled |
Mit Optional Gültige Werte: Standardwert: |
checkpoint_frequency_num_batches |
Prüfpunkt und Auswertung alle x Stapel. Dieser Checkpoint-Hyperparameter wird an den seq2seq-Algorithmus übergeben, um SageMaker das beste Modell frühzeitig zu beenden und abzurufen. Das Checkpointing des Algorithmus wird lokal im Trainingscontainer des Algorithmus ausgeführt und ist nicht mit Checkpointing kompatibel. SageMaker Der Algorithmus speichert Checkpoints vorübergehend in einem lokalen Pfad und speichert das beste Modellartefakt im Modellausgabepfad in S3, nachdem der Trainingsauftrag beendet wurde. Optional Gültige Werte: positive Ganzzahl Standardwert: 1000 |
checkpoint_threshold |
Maximale Anzahl an Prüfpunkten, die das Modell in Optional Gültige Werte: positive Ganzzahl Standardwert: 3 |
clip_gradient |
Absolute Gradientenwerte, die diesen Wert überschreiten, abschneiden. Zur Deaktivierung auf einen negativen Wert setzen. Optional Gültige Werte: Gleitkommazahl Standardwert: 1 |
cnn_activation_type |
Gibt den zu verwendenden Optional Gültige Werte: Zeichenfolge. Einer der Werte Standardwert: |
cnn_hidden_dropout |
Dropout-Wahrscheinlichkeit für einen Ausfall von Convolutional (faltenden)-Layern. Optional Gültige Werte: Gleitkommazahl. Bereich [0,1]. Standardwert: 0 |
cnn_kernel_width_decoder |
Kernelbreite für den Optional Gültige Werte: positive Ganzzahl Standardwert: 5 |
cnn_kernel_width_encoder |
Kernelbreite für den Optional Gültige Werte: positive Ganzzahl Standardwert: 3 |
cnn_num_hidden |
Anzahl der ausgeblendeten Optional Gültige Werte: positive Ganzzahl Standardwert: 512 |
decoder_type |
Decoder-Typ. Optional Gültige Werte: Zeichenfolge. Entweder Standardwert: rnn |
embed_dropout_source |
Dropout-Wahrscheinlichkeit für Einbettungen aufseiten der Quelle. Optional Gültige Werte: Gleitkommazahl. Bereich [0,1]. Standardwert: 0 |
embed_dropout_target |
Dropout-Wahrscheinlichkeit für Einbettungen aufseiten des Ziels. Optional Gültige Werte: Gleitkommazahl. Bereich [0,1]. Standardwert: 0 |
encoder_type |
Encoder-Typ. Die Optional Gültige Werte: Zeichenfolge. Entweder Standardwert: |
fixed_rate_lr_half_life |
Halbwertzeit der Lernrate in Bezug auf die Prüfpunktanzahl von Optional Gültige Werte: positive Ganzzahl Standardwert: 10 |
learning_rate |
Anfängliche Lernrate. Optional Gültige Werte: Gleitkommazahl Standardwert: 0.0003 |
loss_type |
Verlustfunktion für Trainings. Optional Gültige Werte: Zeichenfolge Standardwert: |
lr_scheduler_type |
Scheduler-Typ der Lernrate. Mit Optional Gültige Werte: Zeichenfolge. Entweder Standardwert: |
max_num_batches |
Maximale Anzahl der zu verarbeitenden Updates/Stapel. -1 für unendlich. Optional Gültige Werte: Ganzzahl Standardwert: -1 |
max_num_epochs |
Maximale Anzahl der Epochen, die die Trainingsdaten durchlaufen können, bevor die Anpassung beendet wird. Das Training wird so lange fortgesetzt, bis diese Anzahl von Epochen erreicht ist (auch wenn die Validierungsgenauigkeit nicht durch die Übergabe dieses Parameters verbessert wird). Wird dieser Parameter nicht übergeben, wird er ignoriert. Optional Gültige Werte: Eine positive Ganzzahl und kleiner als oder gleich max_num_epochs. Standardwert: keine |
max_seq_len_source |
Maximale Länge der Quellsequenz. Längere Sequenzen werden auf diese Länge gekürzt. Optional Gültige Werte: positive Ganzzahl Standardwert: 100 |
max_seq_len_target |
Maximale Länge der Zielsequenz. Längere Sequenzen werden auf diese Länge gekürzt. Optional Gültige Werte: positive Ganzzahl Standardwert: 100 |
min_num_epochs |
Mindestanzahl der Epochen, die das Training ausgeführt werden muss, bevor sie über Optional Gültige Werte: positive Ganzzahl Standardwert: 0 |
momentum |
Für Optional Gültige Werte: Gleitkommazahl Standardwert: keine |
num_embed_source |
Einbettende Größe für Quell-Token. Optional Gültige Werte: positive Ganzzahl Standardwert: 512 |
num_embed_target |
Einbettende Größe für Ziel-Token. Optional Gültige Werte: positive Ganzzahl Standardwert: 512 |
num_layers_decoder |
Layer-Anzahl für den Decoder-Typ rnn oder cnn. Optional Gültige Werte: positive Ganzzahl Standardwert: 1 |
num_layers_encoder |
Layer-Anzahl für den Encoder-Typ Optional Gültige Werte: positive Ganzzahl Standardwert: 1 |
optimized_metric |
Metriken zur Optimierung des frühzeitigen Beendens. Optional Gültige Werte: Zeichenfolge. Entweder Standardwert: |
optimizer_type |
Auswählbare Optimierung. Optional Gültige Werte: Zeichenfolge. Entweder Standardwert: |
plateau_reduce_lr_factor |
Faktor der Lernratenmultiplikation (für Optional Gültige Werte: Gleitkommazahl Standardwert: 0.5 |
plateau_reduce_lr_threshold |
Beim Optional Gültige Werte: positive Ganzzahl Standardwert: 3 |
rnn_attention_in_upper_layers |
Lenken Sie Ihre Aufmerksamkeit auf die oberen Schichten von RNN, wie Google NMT Paper. Dies ist nur möglich, wenn mehrere Layer verwendet werden. Optional Gültige Werte: Boolesch ( Standardwert: |
rnn_attention_num_hidden |
Anzahl der ausgeblendeten Einheiten für Attention-Layer. Der Standardwert ist Optional Gültige Werte: positive Ganzzahl Standardwert: |
rnn_attention_type |
Attention-Modell für Encoder. Optional Gültige Werte: Zeichenfolge. Einer der Werte Standardwert: |
rnn_cell_type |
Spezifischer Typ der Optional Gültige Werte: Zeichenfolge. Entweder Standardwert: |
rnn_decoder_state_init |
Gibt an, wie Status von Optional Gültige Werte: Zeichenfolge. Entweder Standardwert: |
rnn_first_residual_layer |
Erster rnn-Layer mit einer residualen Verbindung (nur möglich, sofern die Anzahl der Layer im Encoder oder Decoder mehr als 1 beträgt). Optional Gültige Werte: positive Ganzzahl Standardwert: 2 |
rnn_num_hidden |
Anzahl der ausgeblendeten rnn-Einheiten für Encoder und Decoder. Dies muss ein Vielfaches von 2 sein, da der Algorithmus standardmäßig das bidirektionale Langzeit-Kurzzeitgedächtnis (LSTM) verwendet. Optional Gültige Werte: positive gerade Ganzzahl Standardwert: 1024 |
rnn_residual_connections |
Fügt eine residuale Verbindung zum gestapelten rnn hinzu. Die Anzahl der Layer muss mehr als 1 betragen. Optional Gültige Werte: Boolesch ( Standardwert: |
rnn_decoder_hidden_dropout |
Dropout-Wahrscheinlichkeit für ausgeblendeten Status als Kombination aus Kontext und ausgeblendetem rnn-Status im Decoder. Optional Gültige Werte: Gleitkommazahl. Bereich [0,1]. Standardwert: 0 |
training_metric |
Metriken zur Trainingsüberwachung mithilfe von Validierungsdaten. Optional Gültige Werte: Zeichenfolge. Entweder Standardwert: |
weight_decay |
Konstante des Gewichtungszerfalls. Optional Gültige Werte: Gleitkommazahl Standardwert: 0 |
weight_init_scale |
Skala der Gewichtungsinitialisierung (für Initialisierungen der Typen Optional Gültige Werte: Gleitkommazahl Standardwert: 2.34 |
weight_init_type |
Typ der Gewichtungsinitialisierung. Optional Gültige Werte: Zeichenfolge. Entweder Standardwert: |
xavier_factor_type |
Xavier-Faktortyp. Optional Gültige Werte: Zeichenfolge. Entweder Standardwert: |