Sequence-to-Sequence Iperparametri - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Sequence-to-Sequence Iperparametri

La tabella seguente elenca gli iperparametri che puoi impostare durante l'allenamento con l'algoritmo Amazon SageMaker AI Sequence-to-Sequence (seq2seq).

Nome parametro Descrizione
batch_size

Dimensioni del mini-batch per la discesa del gradiente.

Opzionale

Valori validi: numeri interi positivi

Valore predefinito: 64

beam_size

Lunghezza del fascio per la relativa ricerca. Utilizzato durante l’addestramento per il calcolo di bleu e durante l'inferenza.

Opzionale

Valori validi: numeri interi positivi

Valore predefinito: 5

bleu_sample_size

Numero di istanze da cui prelevare il set di dati di convalida per decodificare e calcolare il punteggio bleu durante l’addestramento. Imposta su -1 per utilizzare il set completo di convalida (se bleu viene scelto come optimized_metric).

Opzionale

Valori validi: numero intero

Valore predefinito: 0

bucket_width

Restituisce i bucket (di origine, di destinazione) fino a (max_seq_len_source, max_seq_len_target). Il lato più lungo dei dati utilizza fasi di bucket_width, mentre il lato più corto usa fasi ridotte dalla proporzione della lunghezza media tra destinazione/origine. Se un lato raggiunge la sua lunghezza massima prima dell'altro, la larghezza dei bucket extra su quel lato viene fissata su quel lato di max_len.

Opzionale

Valori validi: numeri interi positivi

Valore predefinito: 10

bucketing_enabled

Imposta su false per disattivare il bucketing, svolgere alla lunghezza massima.

Opzionale

Valori validi: true o false

Valore predefinito: true

checkpoint_frequency_num_batches

Checkpoint e valutazione ogni x batch. Questo iperparametro di checkpoint viene passato all'algoritmo seq2seq dell' SageMaker IA per l'arresto anticipato e il recupero del modello migliore. Il checkpoint dell'algoritmo viene eseguito localmente nel contenitore di addestramento dell'algoritmo e non è compatibile con il checkpoint AI. SageMaker L'algoritmo salva temporaneamente i checkpoint su un percorso locale e memorizza l'artefatto del modello migliore nel percorso di output del modello in S3 dopo l'interruzione del processo di addestramento.

Opzionale

Valori validi: numeri interi positivi

Valore predefinito: 1000

checkpoint_threshold

Numero massimo del modello di checkpoint consentito per non migliorare in optimized_metric sul set di dati di convalida prima che l’addestramento venga arrestato. Questo iperparametro di checkpoint viene passato all'algoritmo seq2seq dell' SageMaker IA per l'arresto anticipato e il recupero del modello migliore. Il checkpoint dell'algoritmo viene eseguito localmente nel contenitore di addestramento dell'algoritmo e non è compatibile con il checkpoint AI. SageMaker L'algoritmo salva temporaneamente i checkpoint su un percorso locale e memorizza l'artefatto del modello migliore nel percorso di output del modello in S3 dopo l'interruzione del processo di addestramento.

Opzionale

Valori validi: numeri interi positivi

Valore predefinito: 3

clip_gradient

Ritagliare i valori di gradiente assoluto maggiori di questo. Impostare su negativo per disattivare.

Opzionale

Valori validi: float.

Valore predefinito: 1

cnn_activation_type

Il tipo di attivazione cnn da utilizzare.

Opzionale

Valori validi: stringa. Uno tra glu, relu, softrelu, sigmoid o tanh.

Valore predefinito: glu

cnn_hidden_dropout

Probabilità di dropout tra layer convoluzionali.

Opzionale

Valori validi: Float. Intervallo in [0,1].

Valore predefinito: 0

cnn_kernel_width_decoder

Larghezza kernel per il decodificatore cnn.

Opzionale

Valori validi: numeri interi positivi

Valore predefinito: 5

cnn_kernel_width_encoder

Larghezza kernel per il codificatore cnn.

Opzionale

Valori validi: numeri interi positivi

Valore predefinito: 3

cnn_num_hidden

Numero di unità nascoste cnn per codificatore e decodificatore.

Opzionale

Valori validi: numeri interi positivi

Valore predefinito: 512

decoder_type

Tipo di decodificatore.

Opzionale

Valori validi: stringa. rnn o cnn.

Valore predefinito: rnn

embed_dropout_source

Probabilità di dropout per le integrazioni lato origine.

Opzionale

Valori validi: Float. Intervallo in [0,1].

Valore predefinito: 0

embed_dropout_target

Probabilità di dropout per le integrazioni lato destinazione.

Opzionale

Valori validi: Float. Intervallo in [0,1].

Valore predefinito: 0

encoder_type

Tipo di codificatore. L'architettura rnn è basata sul meccanismo di attenzione di Bahdanau e altri e l'architettura cnn si basa su Gehring e altri

Opzionale

Valori validi: stringa. rnn o cnn.

Valore predefinito: rnn

fixed_rate_lr_half_life

Half life per la velocità di apprendimento in termini di numero di checkpoint per i pianificatori fixed_rate_*.

Opzionale

Valori validi: numeri interi positivi

Valore predefinito: 10

learning_rate

Velocità di apprendimento iniziale.

Opzionale

Valori validi: float.

Valore predefinito: 0.0003

loss_type

Funzione di perdita per l'apprendimento.

Opzionale

Valori validi: stringa. cross-entropy

Valore predefinito: cross-entropy

lr_scheduler_type

Tipo di pianificatore della velocità di apprendimento. plateau_reduce indica una riduzione della velocità di apprendimento quando optimized_metric su livelli fissi di validation_accuracy. inv_t indica il decadimento temporale inverso. learning_rate/(1+decay_rate*t)

Opzionale

Valori validi: stringa. Uno tra plateau_reduce, fixed_rate_inv_t o fixed_rate_inv_sqrt_t.

Valore predefinito: plateau_reduce

max_num_batches

Numero massimo di aggiornamenti/batch da elaborare. -1 per infinito.

Opzionale

Valori validi: numero intero

Valore predefinito: -1

max_num_epochs

Numero massimo di epoch da trasmettere tramite i dati di addestramento prima che il fitting venga arrestato. L’addestramento continua fino a questo numero di epoch anche se la precisione di convalida non migliora trasmettendo questo parametro. Ignorato se non trasmesso.

Opzionale

Valori validi: numeri interi positivi minori o uguali a max_num_epochs.

Valore predefinito: nessuno

max_seq_len_source

Lunghezza massima per la sequenza di origine. Le sequenze più lunghe verranno troncate a questa lunghezza.

Opzionale

Valori validi: numeri interi positivi

Valore predefinito: 100

max_seq_len_target

Lunghezza massima per la sequenza di destinazione. Le sequenze più lunghe verranno troncate a questa lunghezza.

Opzionale

Valori validi: numeri interi positivi

Valore predefinito: 100

min_num_epochs

Numero minimo di epoche (Unix epochs) che l’addestramento deve eseguire prima di essere arrestato dalle condizioni early_stopping.

Opzionale

Valori validi: numeri interi positivi

Valore predefinito: 0

momentum

Costante di momento utilizzata per sgd. Non trasmettere questo parametro se usi adam o rmsprop.

Opzionale

Valori validi: float.

Valore predefinito: nessuno

num_embed_source

Dimensioni di incorporamento per i token di origine.

Opzionale

Valori validi: numeri interi positivi

Valore predefinito: 512

num_embed_target

Dimensioni di integrazione per i token di destinazione.

Opzionale

Valori validi: numeri interi positivi

Valore predefinito: 512

num_layers_decoder

Numero di livelli per decodificatore rnn o cnn.

Opzionale

Valori validi: numeri interi positivi

Valore predefinito: 1

num_layers_encoder

Numero di livelli per codificatore rnn o cnn.

Opzionale

Valori validi: numeri interi positivi

Valore predefinito: 1

optimized_metric

Parametri per l'ottimizzazione con arresto precoce.

Opzionale

Valori validi: stringa. Uno tra perplexity, accuracy o bleu.

Valore predefinito: perplexity

optimizer_type

Ottimizzatore da cui scegliere.

Opzionale

Valori validi: stringa. Uno tra adam, sgd o rmsprop.

Valore predefinito: adam

plateau_reduce_lr_factor

Fattore con cui moltiplicare la velocità di apprendimento (per plateau_reduce).

Opzionale

Valori validi: float.

Valore predefinito: 0.5

plateau_reduce_lr_threshold

Per il pianificatore plateau_reduce, moltiplicare la velocità di apprendimento con il fattore di riduzione se optimized_metric non è migliorato per i vari checkpoint.

Opzionale

Valori validi: numeri interi positivi

Valore predefinito: 3

rnn_attention_in_upper_layers

Passa l'attenzione ai livelli superiori di rnn, come Google NMT paper. Applicabile solo se viene utilizzato più di un layer.

Opzionale

Valori validi: booleani (true o false)

Valore predefinito: true

rnn_attention_num_hidden

Numero di unità nascoste per i livelli di attenzione. Valore predefinito:rnn_num_hidden.

Opzionale

Valori validi: numeri interi positivi

Valore predefinito: rnn_num_hidden

rnn_attention_type

Modello di attenzione per codificatori. mlp si riferisce a concat e bilinear si riferisce al concetto generale del documento di Luong e altri.

Opzionale

Valori validi: stringa. Uno tra dot, fixed, mlp o bilinear.

Valore predefinito: mlp

rnn_cell_type

Tipo specifico di architettura rnn.

Opzionale

Valori validi: stringa. lstm o gru.

Valore predefinito: lstm

rnn_decoder_state_init

Modalità di inizializzazione degli stati del decodificatore rnn dai codificatori.

Opzionale

Valori validi: stringa. Uno tra last, avg o zero.

Valore predefinito: last

rnn_first_residual_layer

Primo livello rnn ad avere una connessione residua, applicabile solo se il numero di livelli nel codificatore o nel decodificatore è superiore a 1.

Opzionale

Valori validi: numeri interi positivi

Valore predefinito: 2

rnn_num_hidden

Numero di unità nascoste rnn per codificatore e decodificatore. Deve essere un multiplo di 2 perché l'algoritmo utilizza la memoria bidirezionale Long Term Short Term () LSTM per impostazione predefinita.

Opzionale

Valori validi: numeri interi pari positivi

Valore predefinito: 1024

rnn_residual_connections

Aggiunta di connessione residua alla rete rnn nello stack. Il numero di layer deve essere superiore a 1.

Opzionale

Valori validi: booleani (true o false)

Valore predefinito: false

rnn_decoder_hidden_dropout

Probabilità di dropout per lo stato nascosto che combina il contesto con lo stato nascosto rnn nel decodificatore.

Opzionale

Valori validi: Float. Intervallo in [0,1].

Valore predefinito: 0

training_metric

Parametri di tracciamento dell’addestramento sui dati di convalida.

Opzionale

Valori validi: stringa. perplexity o accuracy.

Valore predefinito: perplexity

weight_decay

Decadimento del peso costante.

Opzionale

Valori validi: float.

Valore predefinito: 0

weight_init_scale

Dimensionamento dell'inizializzazione del peso (per l'inizializzazione uniform e xavier).

Opzionale

Valori validi: float.

Valore predefinito: 2.34

weight_init_type

Tipo di inizializzazione del peso.

Opzionale

Valori validi: stringa. uniform o xavier.

Valore predefinito: xavier

xavier_factor_type

Tipo di fattore xavier.

Opzionale

Valori validi: stringa. Uno tra in, out o avg.

Valore predefinito: in