Come funziona l'algoritmo di apprendimento lineare - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Come funziona l'algoritmo di apprendimento lineare

L'implementazione dell'algoritmo Linear Learner prevede tre fasi: preelaborazione, addestramento e convalida.

Fase 1: preelaborazione

La normalizzazione, o dimensionamento delle caratteristiche, è una fase di preelaborazione importante per alcune funzioni di perdita che garantisce che il modello addestrato su un set di dati non sia dominato dal peso di una singola caratteristica. L'algoritmo Amazon SageMaker AI Linear Learner ha un'opzione di normalizzazione per facilitare questa fase di preelaborazione. Se la normalizzazione è attivata, l'algoritmo passa prima a un piccolo campione di dati per apprendere il valore medio e la deviazione standard per ogni caratteristica e per l'etichetta. Ciascuna delle caratteristiche del set di dati completo viene quindi spostata in modo da avere una media pari a zero e ridimensionata per avere una deviazione standard dell'unità.

Nota

Per ottenere risultati ottimali, assicurati che i dati siano mischiati prima dell’addestramento. L’addestramento con dati non mischiati può causare il fallimento dell’addestramento medesimo.

Puoi configurare se l'algoritmo Linear Learner normalizza i dati delle caratteristiche e le etichette utilizzando rispettivamente gli iperparametri normalize_data e normalize_label). La normalizzazione è abilitata per impostazione predefinita sia per le caratteristiche che per le etichette per la regressione. Solo le caratteristiche possono essere normalizzate per la classificazione binaria e questo è il comportamento predefinito.

Fase 2: addestramento

Con l'algoritmo linear learner, ti alleni con un'implementazione distribuita del gradiente stocastico (). SGD Puoi controllare il processo di ottimizzazione scegliendo l'algoritmo di ottimizzazione. Ad esempio, puoi scegliere di utilizzare Adam, stochastic gradient descent o AdaGrad altri algoritmi di ottimizzazione. Puoi anche specificare gli iperparametri, come il momento, la velocità di apprendimento e la pianificazione della velocità di apprendimento. Se non sei sicuro di quale sia l'algoritmo o l'iperparametro da usare, scegli un valore predefinito che funziona per la maggior parte dei set di dati.

Durante l’addestramento, ottimizzi simultaneamente più modelli, ciascuno con obiettivi leggermente diversi. Ad esempio, puoi variare la regolarizzazione L1 o L2 e provare diverse impostazioni di ottimizzazione.

Fase 3: convalida e impostazione della soglia

Quando addestri più modelli in parallelo, i modelli vengono valutati rispetto a un set di convalida per selezionare il modello più ottimale una volta completato l’addestramento. Per la regressione, il modello più ottimale è quello che ottiene la perdita migliore del set di convalida. Per la classificazione, viene utilizzato un esempio del set di convalida per calibrare la soglia di classificazione. Il modello più ottimale selezionato è quello che ottiene i migliori criteri di selezione della classificazione binaria sul set di convalida. Esempi di questi criteri includono la misura F1, l'accuratezza e la perdita di entropia incrociata.

Nota

Se all'algoritmo non viene fornito un set di convalida, non è possibile valutare e selezionare il modello più ottimale. Per sfruttare l’addestramento parallelo e la selezione del modello, assicurati di fornire un set di convalida all'algoritmo.