Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Iperparametri di Insights IP
Nella richiesta CreateTransformJob
puoi specificare l'algoritmo di addestramento. Puoi anche specificare iperparametri specifici dell'algoritmo come mappe. string-to-string La tabella seguente elenca gli iperparametri per l'algoritmo Amazon SageMaker IP Insights.
Nome parametro | Descrizione |
---|---|
num_entity_vectors |
Il numero di rappresentazioni vettoriali di entità (vettori di incorporamento di entità) da addestrare. Ogni entità nel set di addestramento viene assegnata casualmente a uno di questi vettori utilizzando una funzione hash. A causa delle collisioni hash, è possibile che più entità vengano assegnate allo stesso vettore. In questo caso lo stesso vettore rappresenterebbe più entità. Questo ha generalmente un effetto trascurabile sulle prestazioni del modello, purché il tasso di collisione non sia troppo elevato. Per mantenere basso il tasso di collisione, imposta il valore più alto possibile. Tuttavia, le dimensioni del modello e, di conseguenza, i requisiti di memoria, sia per l’addestramento che per l'inferenza, si adattano linearmente a questo iperparametro. Consigliamo di impostare questo valore raddoppiando il numero di identificatori univoci di entità. Campo obbligatorio Valori validi: 1 ≤ numero intero positivo ≤ 250.000.000 |
vector_dim |
La dimensione dei vettori di incorporamento per rappresentare entità e indirizzi IP. Più grande è il valore, maggiori sono le informazioni che possono essere codificate utilizzando queste rappresentazioni. In pratica, la dimensione del modello viene ridimensionata linearmente con questo parametro limitando l'ampiezza della dimensione. Inoltre, l'utilizzo di rappresentazioni vettoriali troppo grandi può causare il sovradimensionamento del modello, in particolare per i set di dati di addestramento di piccole dimensioni. L'overfitting si verifica quando un modello non apprende un modello nei dati, ma memorizza in modo efficace i dati di addestramento e, pertanto, non è in grado di effettuare una generalizzazione corretta e ha scarse prestazioni durante l'inferenza. Il valore consigliato è 128. Campo obbligatorio Valori validi: 4 ≤ numero intero positivo ≤ 4096 |
batch_metrics_publish_interval |
L'intervallo (ogni X batch) a cui la funzione Apache MXNet Speedometer stampa la velocità di addestramento della rete (esempi al secondo). Opzionale Valori validi: numero intero positivo ≥ 1 Valore predefinito: 1,000 |
epochs |
Numero di passaggi sui dati di addestramento. Il valore ottimale dipende dalle dimensioni dei dati e dalla velocità di apprendimento. I valori tipici sono compresi tra 5 e 100. Opzionale Valori validi: numero intero positivo ≥ 1 Valore predefinito: 10 |
learning_rate |
La velocità di apprendimento dell'ottimizzatore. IP Insights utilizza un ottimizzatore gradient-descent-based Adam. La velocità di apprendimento controlla efficacemente la dimensione della fase per aggiornare i parametri del modello a ogni iterazione. Una velocità di apprendimento troppo elevata può far divergere il modello perché è probabile che l’addestramento superi il valore minimo. D'altra parte, una velocità di apprendimento troppo bassa rallenta la convergenza. I valori tipici sono compresi tra 1e-4 e 1e-1. Opzionale Valori validi: 1e-6 ≤ float ≤ 10.0 Valore predefinito: 0,001 |
mini_batch_size |
Il numero di esempi in ogni mini-batch. La procedura di addestramento elabora i dati nei batch mini. Il valore ottimale dipende dal numero di identificatori univoci di account nel set di dati. In generale, più grande è Opzionale Valori validi: 1 ≤ numero intero positivo ≤ 500000 Valore predefinito: 10,000 |
num_ip_encoder_layers |
Il numero di livelli completamente connessi utilizzati per codificare l'incorporamento dell'indirizzo IP. Maggiore è il numero di livelli, maggiore è la capacità del modello di acquisire modelli tra gli indirizzi IP. Tuttavia, l'utilizzo di un numero elevato di livelli aumenta la possibilità di overfitting. Opzionale Valori validi: 0 ≤ numero intero positivo ≤ 100 Valore predefinito: 1 |
random_negative_sampling_rate |
Il numero di esempi negativi casuali, R, da generare per ogni esempio di input. La procedura di addestramento si basa sugli esempi negativi per evitare che le rappresentazioni vettoriali del modello vengano compresse in un solo punto. Il campionamento negativo casuale genera indirizzi IP casuali R per ciascun account di input presente nel mini batch. La somma di Opzionale Valori validi: 0 ≤ numero intero positivo ≤ 500 Valore predefinito: 1 |
shuffled_negative_sampling_rate |
Il numero di esempi negativi non ordinati, S, da generare per ogni esempio di input. In alcuni casi, è utile usare esempi negativi più realistici che vengono scelti casualmente dai dati di addestramento. Questo tipo di campionamento negativo si ottiene disponendo in modo non ordinato i dati all'interno di un batch mini. Il campionamento negativo non ordinato genera indirizzi IP negativi S grazie alla disposizione non ordinata della coppia indirizzo IP-account all'interno di un mini batch. La somma di Opzionale Valori validi: 0 ≤ numero intero positivo ≤ 500 Valore predefinito: 1 |
weight_decay |
Il coefficiente di decadimento del peso. Questo parametro aggiunge un fattore di regolarizzazione L2 che è richiesto per evitare l'overfitting dei dati di addestramento. Opzionale Valori validi: 0,0 ≤ float ≤ 10,0 Valore predefinito: 0,00001 |