Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Modalità di addestramento e supporto degli algoritmi
Autopilot supporta diverse modalità e algoritmi di addestramento per risolvere i problemi di machine learning, generare report su parametri oggettivi e di qualità e utilizzare automaticamente la convalida incrociata, quando necessario.
Modalità di addestramento
SageMaker Autopilot può selezionare automaticamente il metodo di allenamento in base alla dimensione del set di dati oppure è possibile selezionarlo manualmente. Sono disponibili le opzioni seguenti:
-
Ensembling: Autopilot utilizza la libreria per addestrare diversi modelli di base. AutoGluon
Per trovare la combinazione migliore per il tuo set di dati, la modalità raggruppamento esegue 10 prove con diverse impostazioni di modelli e metaparametri. Quindi Autopilot combina questi modelli utilizzando un metodo di sovrapposizione per creare un modello predittivo ottimale. Per un elenco degli algoritmi supportati da Autopilot in modalità raggruppamento per dati tabulari, consulta la seguente sezione relativa al Supporto degli algoritmi. -
Ottimizzazione iperparametrica (HPO): Autopilot trova la versione migliore di un modello regolando gli iperparametri utilizzando l'ottimizzazione bayesiana o l'ottimizzazione multifidelity mentre esegue lavori di formazione sul set di dati. HPOmode seleziona gli algoritmi più pertinenti al set di dati e seleziona la gamma migliore di iperparametri per ottimizzare i tuoi modelli. Per ottimizzare i modelli, la HPO modalità esegue fino a 100 prove (impostazione predefinita) per trovare le impostazioni ottimali degli iperparametri all'interno dell'intervallo selezionato. Se la dimensione del set di dati è inferiore a 100 MB, Autopilot utilizza l'ottimizzazione bayesiana. Autopilot sceglie l'ottimizzazione multi-fidelity se il set di dati è più grande di 100 MB.
Nell'ottimizzazione multifidelity, i parametri vengono emessi continuamente dai container di addestramento. Una prova con scarse prestazioni rispetto a un parametro oggettivo selezionato viene interrotto in anticipo. A una versione di prova che sta dando buoni risultati vengono assegnate più risorse.
Per un elenco degli algoritmi supportati da Autopilot in HPO modalità, consulta la seguente sezione Supporto degli algoritmi.
-
Automatico: Autopilot sceglie automaticamente la modalità di assemblaggio o la modalità in base alla dimensione del set di dati. HPO Se il set di dati è più grande di 100 MB, sceglie Autopilot. HPO Altrimenti, esso sceglie la modalità raggruppamento. Autopilot può non riuscire a leggere la dimensione del set di dati nei seguenti casi.
Se Autopilot non è in grado di leggere la dimensione del set di dati, per impostazione predefinita sceglie la modalità. HPO
Nota
Per un runtime e prestazioni ottimali, utilizza la modalità addestramento raggruppamento per set di dati di dimensioni inferiori a 100 MB.
Supporto degli algoritmi
In HPOmodalità, Autopilot supporta i seguenti tipi di algoritmi di apprendimento automatico:
-
Linear learner: un algoritmo di apprendimento supervisionato in grado di risolvere problemi di classificazione o regressione.
-
XGBoost— Un algoritmo di apprendimento supervisionato che tenta di prevedere con precisione una variabile target combinando un insieme di stime tratte da una serie di modelli più semplici e più deboli.
-
Algoritmo di deep learning: un perceptron multistrato () e una rete neurale artificiale feedforward. MLP Questo algoritmo è in grado di gestire dati che non sono separabili linearmente.
Nota
Non è necessario specificare un algoritmo da utilizzare per il problema del Machine learning. Autopilot seleziona automaticamente l'algoritmo appropriato da addestrare.
In ensembling mode (modalità raggruppamento), Autopilot supporta i seguenti tipi di algoritmi di machine learning:
-
Light GBM: un framework ottimizzato che utilizza algoritmi basati su alberi con potenziamento del gradiente. Questo algoritmo utilizza alberi che crescono in larghezza anziché in profondità ed è altamente ottimizzato per la velocità.
-
CatBoost— Un framework che utilizza algoritmi basati su alberi con aumento del gradiente. Ottimizzato per la gestione di variabili categoriche.
-
XGBoost— Un framework che utilizza algoritmi basati su alberi con potenziamento del gradiente che cresce in profondità anziché in larghezza.
-
Random Forest
: un algoritmo ad albero che utilizza diversi alberi decisionali su sottocampioni casuali di dati con sostituzione. Gli alberi sono suddivisi in nodi ottimali a ciascun livello. Le decisioni di ogni albero vengono calcolate insieme per evitare un sovradimensionamento e migliorare le previsioni. -
Extra Trees
: un algoritmo ad albero che utilizza diversi alberi decisionali sull'intero set di dati. Gli alberi vengono suddivisi casualmente ad ogni livello. Le decisioni di ogni albero vengono calcolate per evitare un sovradimensionamento e per migliorare le previsioni. Gli alberi aggiuntivi aggiungono un grado di randomizzazione rispetto all'algoritmo della foresta casuale. -
Linear Models
: un framework che utilizza un'equazione lineare per modellare la relazione tra due variabili nei dati osservati. -
Neural network torch: un modello di rete neurale implementato utilizzando Pytorch
. -
Neural network fast.ai: un modello di rete neurale implementato utilizzando fast.ai
.