BlazingText Iperparametri - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

BlazingText Iperparametri

Quando avvii un processo di training con una richiesta CreateTrainingJob, specifichi un algoritmo di training. È inoltre possibile specificare iperparametri specifici dell'algoritmo come mappe. string-to-string Gli iperparametri dell' BlazingText algoritmo dipendono dalla modalità utilizzata: Word2Vec (senza supervisione) e Text Classification (supervisionata).

Iperparametri Word2Vec

La tabella seguente elenca gli iperparametri per l'algoritmo di addestramento BlazingText Word2Vec fornito da Amazon. SageMaker

Nome parametro Descrizione
mode

L'architettura Word2vec utilizzata per il training.

Campo obbligatorio

Valori validi: batch_skipgram, skipgram o cbow

batch_size

La dimensione di ogni batch quando mode è impostato su batch_skipgram. Imposta su un numero tra 10 e 20.

Opzionale

Valori validi: numeri interi positivi

Valore predefinito: 11

buckets

Il numero di bucket hash da utilizzare per le parole secondarie.

Opzionale

Valori validi: numeri interi positivi

Valore predefinito: 2000000

epochs

Il numero di pass completi tramite i dati di training.

Opzionale

Valori validi: numeri interi positivi

Valore predefinito: 5

evaluation

Se il modello addestrato viene valutato utilizzando il test -353. WordSimilarity

Opzionale

Valori validi: (booleani) True o False

Valore predefinito: True

learning_rate

L'incremento utilizzato per gli aggiornamenti dei parametri.

Opzionale

Valori validi: float positivi

Valore predefinito: 0,05

min_char

Il numero minimo di caratteri da utilizzare per n-grammi di parole secondarie/caratteri.

Opzionale

Valori validi: numeri interi positivi

Valore predefinito: 3

min_count

Le parole che appaiono meno di min_count volte vengono eliminate.

Opzionale

Valori validi: numeri interi non negativi

Valore predefinito: 5

max_char

Il numero massimo di caratteri da utilizzare per n-grammi di parole secondarie/caratteri.

Opzionale

Valori validi: numeri interi positivi

Valore predefinito: 6

negative_samples

Il numero di Negative Sample per la strategia Negative Sample Sharing.

Opzionale

Valori validi: numeri interi positivi

Valore predefinito: 5

sampling_threshold

Il limite di occorrenza delle parole. Le parole che appaiono con maggiore frequenza nei dati di training sono casualmente sottocampionate.

Opzionale

Valori validi: frazioni positive. L'intervallo consigliato è (0, 1e-3)

Valore predefinito: 0.0001

subwords

Indica se eseguire o meno il training degli incorporamenti delle parole secondarie.

Opzionale

Valori validi: (booleani) True o False

Valore predefinito: False

vector_dim

La dimensione dei vettori di parola che l'algoritmo impara.

Opzionale

Valori validi: numeri interi positivi

Valore predefinito: 100

window_size

Le dimensioni della finestra contestuale. La finestra contestuale è il numero di parole che circondano la parola di target utilizzata per il training.

Opzionale

Valori validi: numeri interi positivi

Valore predefinito: 5

Iperparametri di classificazione del testo

La tabella seguente elenca gli iperparametri per l'algoritmo di addestramento sulla classificazione del testo fornito da Amazon SageMaker.

Nota

Sebbene alcuni parametri siano comuni tra la modalità di classificazione del testo e Word2Vec, potrebbero avere significati diversi a seconda del contesto.

Nome parametro Descrizione
mode

La modalità di training.

Campo obbligatorio

Valori validi: supervised

buckets

Il numero di bucket hash da utilizzare per n-grammi di parole.

Opzionale

Valori validi: numeri interi positivi

Valore predefinito: 2000000

early_stopping

Indica se interrompere il training nel caso in cui l'accuratezza della convalida non migliora dopo a numero patience di epoche (Unix epochs). Tieni presente che è necessario un canale di convalida se si utilizza l'arresto anticipato.

Opzionale

Valori validi: (booleani) True o False

Valore predefinito: False

epochs

Il numero massimo di pass completi tramite i dati di training.

Opzionale

Valori validi: numeri interi positivi

Valore predefinito: 5

learning_rate

L'incremento utilizzato per gli aggiornamenti dei parametri.

Opzionale

Valori validi: float positivi

Valore predefinito: 0,05

min_count

Le parole che appaiono meno di min_count volte vengono eliminate.

Opzionale

Valori validi: numeri interi non negativi

Valore predefinito: 5

min_epochs

Il numero minimo di epoche (Unix epochs) da addestrare prima che venga richiamata la logica di arresto precoce.

Opzionale

Valori validi: numeri interi positivi

Valore predefinito: 5

patience

Il numero di epoche (Unix epochs) da attendere prima di applicare l'arresto precoce quando non viene effettuato alcun progresso sul set di convalida. Usato solo quando early_stopping è True.

Opzionale

Valori validi: numeri interi positivi

Valore predefinito: 4

vector_dim

La dimensione del livello di incorporamento.

Opzionale

Valori validi: numeri interi positivi

Valore predefinito: 100

word_ngrams

Il numero di caratteristiche n-gramma di parole da utilizzare.

Opzionale

Valori validi: numeri interi positivi

Valore predefinito: 2