Sequence-to-Sequence Iperparametri

La tabella seguente elenca gli iperparametri che puoi impostare durante l'allenamento con l'algoritmo Amazon SageMaker AI Sequence-to-Sequence (seq2seq).

Nome parametro	Description
`batch_size`	Dimensioni del mini-batch per la discesa del gradiente. Opzionale Valori validi: numeri interi positivi Valore predefinito: 64
`beam_size`	Lunghezza del fascio per la relativa ricerca. Utilizzato durante l’addestramento per il calcolo di `bleu` e durante l'inferenza. Opzionale Valori validi: numeri interi positivi Valore predefinito: 5
`bleu_sample_size`	Numero di istanze da cui prelevare il set di dati di convalida per decodificare e calcolare il punteggio `bleu` durante l’addestramento. Imposta su -1 per utilizzare il set completo di convalida (se `bleu` viene scelto come `optimized_metric`). Opzionale Valori validi: numero intero Valore predefinito: 0
`bucket_width`	Restituisce i bucket (di origine, di destinazione) fino a (`max_seq_len_source`, `max_seq_len_target`). La parte più lunga dei dati utilizza passaggi di, `bucket_width` mentre la parte più corta utilizza passaggi ridimensionati in base al rapporto di lunghezza medio. target/source Se un lato raggiunge la sua lunghezza massima prima dell'altro, la larghezza dei bucket extra su quel lato viene fissata su quel lato di `max_len`. Opzionale Valori validi: numeri interi positivi Valore predefinito: 10
`bucketing_enabled`	Imposta su `false` per disattivare il bucketing, svolgere alla lunghezza massima. Opzionale Valori validi: `true` o `false` Valore predefinito: `true`
`checkpoint_frequency_num_batches`	Checkpoint e valutazione ogni x batch. Questo iperparametro di checkpoint viene passato all'algoritmo seq2seq dell' SageMaker IA per l'arresto anticipato e il recupero del modello migliore. Il checkpoint dell'algoritmo viene eseguito localmente nel contenitore di addestramento dell'algoritmo e non è compatibile con il checkpoint AI. SageMaker L'algoritmo salva temporaneamente i checkpoint su un percorso locale e memorizza l'artefatto del modello migliore nel percorso di output del modello in S3 dopo l'interruzione del processo di addestramento. Opzionale Valori validi: numeri interi positivi Valore predefinito: 1000
`checkpoint_threshold`	Numero massimo del modello di checkpoint consentito per non migliorare in `optimized_metric` sul set di dati di convalida prima che l’addestramento venga arrestato. Questo iperparametro di checkpoint viene passato all'algoritmo seq2seq dell' SageMaker IA per l'arresto anticipato e il recupero del modello migliore. Il checkpoint dell'algoritmo viene eseguito localmente nel contenitore di addestramento dell'algoritmo e non è compatibile con il checkpoint AI. SageMaker L'algoritmo salva temporaneamente i checkpoint su un percorso locale e memorizza l'artefatto del modello migliore nel percorso di output del modello in S3 dopo l'interruzione del processo di addestramento. Opzionale Valori validi: numeri interi positivi Valore predefinito: 3
`clip_gradient`	Ritagliare i valori di gradiente assoluto maggiori di questo. Impostare su negativo per disattivare. Opzionale Valori validi: float. Valore predefinito: 1
`cnn_activation_type`	Il tipo di attivazione `cnn` da utilizzare. Opzionale Valori validi: stringa. Uno tra `glu`, `relu`, `softrelu`, `sigmoid` o `tanh`. Valore predefinito: `glu`
`cnn_hidden_dropout`	Probabilità di dropout tra layer convoluzionali. Opzionale Valori validi: Float. Intervallo in [0,1]. Valore predefinito: 0
`cnn_kernel_width_decoder`	Larghezza kernel per il decodificatore `cnn`. Opzionale Valori validi: numeri interi positivi Valore predefinito: 5
`cnn_kernel_width_encoder`	Larghezza kernel per il codificatore `cnn`. Opzionale Valori validi: numeri interi positivi Valore predefinito: 3
`cnn_num_hidden`	Numero di unità nascoste `cnn` per codificatore e decodificatore. Opzionale Valori validi: numeri interi positivi Valore predefinito: 512
`decoder_type`	Tipo di decodificatore. Opzionale Valori validi: stringa. `rnn` o `cnn`. Valore predefinito: rnn
`embed_dropout_source`	Probabilità di dropout per le integrazioni lato origine. Opzionale Valori validi: Float. Intervallo in [0,1]. Valore predefinito: 0
`embed_dropout_target`	Probabilità di dropout per le integrazioni lato destinazione. Opzionale Valori validi: Float. Intervallo in [0,1]. Valore predefinito: 0
`encoder_type`	Tipo di codificatore. L'architettura `rnn` è basata sul meccanismo di attenzione di Bahdanau e altri e l'architettura cnn si basa su Gehring e altri Opzionale Valori validi: stringa. `rnn` o `cnn`. Valore predefinito: `rnn`
`fixed_rate_lr_half_life`	Half life per la velocità di apprendimento in termini di numero di checkpoint per i pianificatori `fixed_rate_`. Opzionale* Valori validi: numeri interi positivi Valore predefinito: 10
`learning_rate`	Velocità di apprendimento iniziale. Opzionale Valori validi: float. Valore predefinito: 0.0003
`loss_type`	Funzione di perdita per l'apprendimento. Opzionale Valori validi: stringa. `cross-entropy` Valore predefinito: `cross-entropy`
`lr_scheduler_type`	Tipo di pianificatore della velocità di apprendimento. `plateau_reduce` indica una riduzione della velocità di apprendimento quando `optimized_metric` su livelli fissi di `validation_accuracy`. `inv_t` indica il decadimento temporale inverso. `learning_rate`/(1+`decay_rate`t) Opzionale* Valori validi: stringa. Uno tra `plateau_reduce`, `fixed_rate_inv_t` o `fixed_rate_inv_sqrt_t`. Valore predefinito: `plateau_reduce`
`max_num_batches`	Numero massimo di updates/batches da elaborare. -1 per infinito. Opzionale Valori validi: numero intero Valore predefinito: -1
`max_num_epochs`	Numero massimo di epoch da trasmettere tramite i dati di addestramento prima che il fitting venga arrestato. L’addestramento continua fino a questo numero di epoch anche se la precisione di convalida non migliora trasmettendo questo parametro. Ignorato se non trasmesso. Opzionale Valori validi: numeri interi positivi minori o uguali a max_num_epochs. Valore predefinito: nessuno
`max_seq_len_source`	Lunghezza massima per la sequenza di origine. Le sequenze più lunghe verranno troncate a questa lunghezza. Opzionale Valori validi: numeri interi positivi Valore predefinito: 100
`max_seq_len_target`	Lunghezza massima per la sequenza di destinazione. Le sequenze più lunghe verranno troncate a questa lunghezza. Opzionale Valori validi: numeri interi positivi Valore predefinito: 100
`min_num_epochs`	Numero minimo di epoche (Unix epochs) che l’addestramento deve eseguire prima di essere arrestato dalle condizioni `early_stopping`. Opzionale Valori validi: numeri interi positivi Valore predefinito: 0
`momentum`	Costante di momento utilizzata per `sgd`. Non trasmettere questo parametro se usi `adam` o `rmsprop`. Opzionale Valori validi: float. Valore predefinito: nessuno
`num_embed_source`	Dimensioni di incorporamento per i token di origine. Opzionale Valori validi: numeri interi positivi Valore predefinito: 512
`num_embed_target`	Dimensioni di integrazione per i token di destinazione. Opzionale Valori validi: numeri interi positivi Valore predefinito: 512
`num_layers_decoder`	Numero di livelli per decodificatore rnn o cnn. Opzionale Valori validi: numeri interi positivi Valore predefinito: 1
`num_layers_encoder`	Numero di livelli per codificatore `rnn` o `cnn`. Opzionale Valori validi: numeri interi positivi Valore predefinito: 1
`optimized_metric`	Parametri per l'ottimizzazione con arresto precoce. Opzionale Valori validi: stringa. Uno tra `perplexity`, `accuracy` o `bleu`. Valore predefinito: `perplexity`
`optimizer_type`	Ottimizzatore da cui scegliere. Opzionale Valori validi: stringa. Uno tra `adam`, `sgd` o `rmsprop`. Valore predefinito: `adam`
`plateau_reduce_lr_factor`	Fattore con cui moltiplicare la velocità di apprendimento (per `plateau_reduce`). Opzionale Valori validi: float. Valore predefinito: 0.5
`plateau_reduce_lr_threshold`	Per il pianificatore `plateau_reduce`, moltiplicare la velocità di apprendimento con il fattore di riduzione se `optimized_metric` non è migliorato per i vari checkpoint. Opzionale Valori validi: numeri interi positivi Valore predefinito: 3
`rnn_attention_in_upper_layers`	Trasmissione dell'attenzione ai livelli superiori di rnn, come il documento Google NMT. Applicabile solo se viene utilizzato più di un layer. Opzionale Valori validi: booleani (`true` o `false`) Valore predefinito: `true`
`rnn_attention_num_hidden`	Numero di unità nascoste per i livelli di attenzione. Valore predefinito:`rnn_num_hidden`. Opzionale Valori validi: numeri interi positivi Valore predefinito: `rnn_num_hidden`
`rnn_attention_type`	Modello di attenzione per codificatori. `mlp` si riferisce a concat e bilinear si riferisce al concetto generale del documento di Luong e altri. Opzionale Valori validi: stringa. Uno tra `dot`, `fixed`, `mlp` o `bilinear`. Valore predefinito: `mlp`
`rnn_cell_type`	Tipo specifico di architettura `rnn`. Opzionale Valori validi: stringa. `lstm` o `gru`. Valore predefinito: `lstm`
`rnn_decoder_state_init`	Modalità di inizializzazione degli stati del decodificatore `rnn` dai codificatori. Opzionale Valori validi: stringa. Uno tra `last`, `avg` o `zero`. Valore predefinito: `last`
`rnn_first_residual_layer`	Primo livello rnn ad avere una connessione residua, applicabile solo se il numero di livelli nel codificatore o nel decodificatore è superiore a 1. Opzionale Valori validi: numeri interi positivi Valore predefinito: 2
`rnn_num_hidden`	Numero di unità nascoste rnn per codificatore e decodificatore. Deve essere un multiplo di 2 in quanto per impostazione predefinita l'algoritmo utilizza la tecnica Long Term Short Term Memory (LSTM) bidirezionale. Opzionale Valori validi: numeri interi pari positivi Valore predefinito: 1024
`rnn_residual_connections`	Aggiunta di connessione residua alla rete rnn nello stack. Il numero di layer deve essere superiore a 1. Opzionale Valori validi: booleani (`true` o `false`) Valore predefinito: `false`
`rnn_decoder_hidden_dropout`	Probabilità di dropout per lo stato nascosto che combina il contesto con lo stato nascosto rnn nel decodificatore. Opzionale Valori validi: Float. Intervallo in [0,1]. Valore predefinito: 0
`training_metric`	Parametri di tracciamento dell’addestramento sui dati di convalida. Opzionale Valori validi: stringa. `perplexity` o `accuracy`. Valore predefinito: `perplexity`
`weight_decay`	Decadimento del peso costante. Opzionale Valori validi: float. Valore predefinito: 0
`weight_init_scale`	Dimensionamento dell'inizializzazione del peso (per l'inizializzazione `uniform` e `xavier`). Opzionale Valori validi: float. Valore predefinito: 2.34
`weight_init_type`	Tipo di inizializzazione del peso. Opzionale Valori validi: stringa. `uniform` o `xavier`. Valore predefinito: `xavier`
`xavier_factor_type`	Tipo di fattore xavier. Opzionale Valori validi: stringa. Uno tra `in`, `out` o `avg`. Valore predefinito: `in`

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Come funziona

Ottimizzazione del modello