Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Come funziona l'algoritmo di apprendimento lineare
L'implementazione dell'algoritmo Linear Learner prevede tre fasi: preelaborazione, training e convalida.
Fase 1: preelaborazione
La normalizzazione, o dimensionamento delle caratteristiche, è una fase di preelaborazione importante per alcune funzioni di perdita che garantisce che il modello sottoposto al training su un set di dati non sia dominato dal peso di una singola caratteristica. L'algoritmo Amazon SageMaker Linear Learner dispone di un'opzione di normalizzazione per facilitare questa fase di preelaborazione. Se la normalizzazione è attivata, l'algoritmo passa prima a un piccolo campione di dati per apprendere il valore medio e la deviazione standard per ogni caratteristica e per l'etichetta. Ciascuna delle caratteristiche del set di dati completo viene quindi spostata in modo da avere una media pari a zero e ridimensionata per avere una deviazione standard dell'unità.
Nota
Per ottenere risultati ottimali, assicurati che i dati siano mischiati prima del training. Il training con dati non mischiati può causare il fallimento del training medesimo.
Puoi configurare se l'algoritmo Linear Learner normalizza i dati delle caratteristiche e le etichette utilizzando rispettivamente gli iperparametri normalize_data
e normalize_label
). La normalizzazione è abilitata per impostazione predefinita sia per le caratteristiche che per le etichette per la regressione. Solo le caratteristiche possono essere normalizzate per la classificazione binaria e questo è il comportamento predefinito.
Fase 2: training
Con l'algoritmo Linear Learner, addestri l'implementazione distribuita della discesa stocastica del gradiente (SGD, Stochastic Gradient Descent). Puoi controllare il processo di ottimizzazione scegliendo l'algoritmo di ottimizzazione. Ad esempio, puoi scegliere di utilizzare Adam AdaGrad, Stochastic Gradient Desent o altri algoritmi di ottimizzazione. Puoi anche specificare gli iperparametri, come il momento, la velocità di apprendimento e la pianificazione della velocità di apprendimento. Se non sei sicuro di quale sia l'algoritmo o l'iperparametro da usare, scegli un valore predefinito che funziona per la maggior parte dei set di dati.
Durante il training, ottimizzi simultaneamente più modelli, ciascuno con obiettivi leggermente diversi. Ad esempio, puoi variare la regolarizzazione L1 o L2 e provare diverse impostazioni di ottimizzazione.
Fase 3: convalida e impostazione della soglia
Quando esegui il training di più modelli in parallelo, i modelli vengono valutati rispetto a un set di convalida per selezionare il modello più ottimale una volta completato il training. Per la regressione, il modello più ottimale è quello che ottiene la perdita migliore del set di convalida. Per la classificazione, viene utilizzato un esempio del set di convalida per calibrare la soglia di classificazione. Il modello più ottimale selezionato è quello che ottiene i migliori criteri di selezione della classificazione binaria sul set di convalida. Esempi di questi criteri includono la misura F1, l'accuratezza e la perdita di entropia incrociata.
Nota
Se all'algoritmo non viene fornito un set di convalida, non è possibile valutare e selezionare il modello più ottimale. Per sfruttare il training parallelo e la selezione del modello, assicurati di fornire un set di convalida all'algoritmo.