Iperparametri di Insights IP - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Iperparametri di Insights IP

Nella richiesta CreateTransformJob puoi specificare l'algoritmo di addestramento. Puoi anche specificare iperparametri specifici dell'algoritmo come mappe. string-to-string La tabella seguente elenca gli iperparametri per l'algoritmo Amazon SageMaker IP Insights.

Nome parametro Descrizione
num_entity_vectors

Il numero di rappresentazioni vettoriali di entità (vettori di incorporamento di entità) da addestrare. Ogni entità nel set di addestramento viene assegnata casualmente a uno di questi vettori utilizzando una funzione hash. A causa delle collisioni hash, è possibile che più entità vengano assegnate allo stesso vettore. In questo caso lo stesso vettore rappresenterebbe più entità. Questo ha generalmente un effetto trascurabile sulle prestazioni del modello, purché il tasso di collisione non sia troppo elevato. Per mantenere basso il tasso di collisione, imposta il valore più alto possibile. Tuttavia, le dimensioni del modello e, di conseguenza, i requisiti di memoria, sia per l’addestramento che per l'inferenza, si adattano linearmente a questo iperparametro. Consigliamo di impostare questo valore raddoppiando il numero di identificatori univoci di entità.

Campo obbligatorio

Valori validi: 1 ≤ numero intero positivo ≤ 250.000.000

vector_dim

La dimensione dei vettori di incorporamento per rappresentare entità e indirizzi IP. Più grande è il valore, maggiori sono le informazioni che possono essere codificate utilizzando queste rappresentazioni. In pratica, la dimensione del modello viene ridimensionata linearmente con questo parametro limitando l'ampiezza della dimensione. Inoltre, l'utilizzo di rappresentazioni vettoriali troppo grandi può causare il sovradimensionamento del modello, in particolare per i set di dati di addestramento di piccole dimensioni. L'overfitting si verifica quando un modello non apprende un modello nei dati, ma memorizza in modo efficace i dati di addestramento e, pertanto, non è in grado di effettuare una generalizzazione corretta e ha scarse prestazioni durante l'inferenza. Il valore consigliato è 128.

Campo obbligatorio

Valori validi: 4 ≤ numero intero positivo ≤ 4096

batch_metrics_publish_interval

L'intervallo (ogni X batch) a cui la funzione Apache MXNet Speedometer stampa la velocità di addestramento della rete (esempi al secondo).

Opzionale

Valori validi: numero intero positivo ≥ 1

Valore predefinito: 1,000

epochs

Numero di passaggi sui dati di addestramento. Il valore ottimale dipende dalle dimensioni dei dati e dalla velocità di apprendimento. I valori tipici sono compresi tra 5 e 100.

Opzionale

Valori validi: numero intero positivo ≥ 1

Valore predefinito: 10

learning_rate

La velocità di apprendimento dell'ottimizzatore. IP Insights utilizza un ottimizzatore gradient-descent-based Adam. La velocità di apprendimento controlla efficacemente la dimensione della fase per aggiornare i parametri del modello a ogni iterazione. Una velocità di apprendimento troppo elevata può far divergere il modello perché è probabile che l’addestramento superi il valore minimo. D'altra parte, una velocità di apprendimento troppo bassa rallenta la convergenza. I valori tipici sono compresi tra 1e-4 e 1e-1.

Opzionale

Valori validi: 1e-6 ≤ float ≤ 10.0

Valore predefinito: 0,001

mini_batch_size

Il numero di esempi in ogni mini-batch. La procedura di addestramento elabora i dati nei batch mini. Il valore ottimale dipende dal numero di identificatori univoci di account nel set di dati. In generale, più grande èmini_batch_size, più veloce è l'allenamento e maggiore è il numero di shuffled-negative-sample combinazioni possibili. Tuttavia, con un valore elevato per mini_batch_size, è più probabile che l’addestramento converga in un valore minimo locale scarso e abbia prestazioni relativamente peggiori per l'inferenza.

Opzionale

Valori validi: 1 ≤ numero intero positivo ≤ 500000

Valore predefinito: 10,000

num_ip_encoder_layers

Il numero di livelli completamente connessi utilizzati per codificare l'incorporamento dell'indirizzo IP. Maggiore è il numero di livelli, maggiore è la capacità del modello di acquisire modelli tra gli indirizzi IP. Tuttavia, l'utilizzo di un numero elevato di livelli aumenta la possibilità di overfitting.

Opzionale

Valori validi: 0 ≤ numero intero positivo ≤ 100

Valore predefinito: 1

random_negative_sampling_rate

Il numero di esempi negativi casuali, R, da generare per ogni esempio di input. La procedura di addestramento si basa sugli esempi negativi per evitare che le rappresentazioni vettoriali del modello vengano compresse in un solo punto. Il campionamento negativo casuale genera indirizzi IP casuali R per ciascun account di input presente nel mini batch. La somma di random_negative_sampling_rate (R) e shuffled_negative_sampling_rate (S) deve essere nell'intervallo: 1 ≤ R + S ≤ 500.

Opzionale

Valori validi: 0 ≤ numero intero positivo ≤ 500

Valore predefinito: 1

shuffled_negative_sampling_rate

Il numero di esempi negativi non ordinati, S, da generare per ogni esempio di input. In alcuni casi, è utile usare esempi negativi più realistici che vengono scelti casualmente dai dati di addestramento. Questo tipo di campionamento negativo si ottiene disponendo in modo non ordinato i dati all'interno di un batch mini. Il campionamento negativo non ordinato genera indirizzi IP negativi S grazie alla disposizione non ordinata della coppia indirizzo IP-account all'interno di un mini batch. La somma di random_negative_sampling_rate (R) e shuffled_negative_sampling_rate (S) deve essere nell'intervallo: 1 ≤ R + S ≤ 500.

Opzionale

Valori validi: 0 ≤ numero intero positivo ≤ 500

Valore predefinito: 1

weight_decay

Il coefficiente di decadimento del peso. Questo parametro aggiunge un fattore di regolarizzazione L2 che è richiesto per evitare l'overfitting dei dati di addestramento.

Opzionale

Valori validi: 0,0 ≤ float ≤ 10,0

Valore predefinito: 0,00001