AutoGluon-Iperparametri tabulari - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

AutoGluon-Iperparametri tabulari

La tabella seguente contiene il sottoinsieme di iperparametri richiesti o più comunemente utilizzati per l'algoritmo Amazon SageMaker AI AutoGluon -Tabular. Gli utenti impostano questi parametri per agevolare la stima dei parametri del modello dai dati. L'algoritmo SageMaker AI AutoGluon -Tabular è un'implementazione del pacchetto open source -Tabular. AutoGluon

Nota

Gli iperparametri predefiniti si basano su set di dati di esempio in AutoGluon-Taccuini di esempio tabulari.

Per impostazione predefinita, l'algoritmo SageMaker AI AutoGluon -Tabular sceglie automaticamente una metrica di valutazione in base al tipo di problema di classificazione. L'algoritmo rileva il tipo di problema di classificazione in base al numero di etichette nei dati. Per i problemi di regressione, il parametro di valutazione è un errore quadratico medio. Per i problemi di classificazione binaria, il parametro di valutazione è l'area sotto la curva caratteristica operativa del ricevitore (AUC). Per i problemi di classificazione multiclasse, il parametro di valutazione è l'accuratezza. È possibile utilizzare l'iperparametro eval_metric per modificare il parametro di valutazione predefinito. Fate riferimento alla tabella seguente per ulteriori informazioni sugli iperparametri AutoGluon -Tabular, incluse descrizioni, valori validi e valori predefiniti.

Nome parametro Descrizione
eval_metric

Parametro di valutazione per i dati di convalida. Se eval_metric è impostato sul valore predefinito "auto", l'algoritmo sceglie automaticamente un parametro di valutazione in base al tipo di problema di classificazione:

  • "root_mean_squared_error" per la regressione

  • "roc_auc" per la classificazione binaria

  • "accuracy" per la classificazione multiclasse

Valori validi: stringa, fare riferimento alla AutoGluon documentazione per i valori validi.

Valore predefinito: "auto".

presets

Elenco di configurazioni preimpostate per vari argomenti in fit().

  • "best_quality": elevata precisione predittiva, tempi di inferenza più lenti e maggiore utilizzo del disco

  • "high_quality": elevata precisione predittiva e inferenza rapida

  • "good_quality": buona precisione predittiva e inferenza molto rapida

  • "medium_quality": precisione predittiva media, inferenza e tempo di addestramento molto rapidi

  • "optimize_for_deployment": elimina i modelli non utilizzati e rimuove gli artefatti di addestramento

  • "interpretable": si adatta solo ai modelli interpretabili basati su regole presenti nel pacchetto imodels

Per maggiori dettagli, consulta AutoGluon Predittori.

Valori validi: stringa, uno dei seguenti valori: ("best_quality", "high_quality", good_quality", "medium_quality", "optimize_for_deployment", or "interpretable").

Valore predefinito: "medium_quality".

auto_stack

Se AutoGluon utilizzare automaticamente l'insaccamento e l'assemblaggio di pile multistrato per aumentare la precisione predittiva. Imposta auto_stack su "True" se sei disposto a tollerare tempi di addestramento più lunghi per massimizzare la precisione predittiva. Questo imposta automaticamente gli argomenti num_bag_folds e num_stack_levels in base alle proprietà del set di dati.

Valori validi: stringa, "True" o "False".

Valore predefinito: "False".

num_bag_folds

Numero di fold utilizzati per il bagging dei modelli. Quando num_bag_folds è uguale a k, il tempo di addestramento viene aumentato all'incirca di un fattore di k. Imposta num_bag_folds su 0 per disattivare il bagging. Questa opzione è disabilitata per impostazione predefinita, ma consigliamo di utilizzare valori compresi tra 5 e 10 per massimizzare le prestazioni predittive. Risultati num_bag_folds migliori in modelli con bias inferiori, ma più inclini all'overfit. Uno è un valore non valido per questo parametro e genererà un ValueError. I valori superiori a 10 possono produrre una diminuzione dei risultati e persino danneggiare i risultati complessivi a causa dell’overfitting. Per migliorare ulteriormente le previsioni, evita di aumentare num_bag_folds e invece aumenta num_bag_sets.

Valori validi: stringa, qualsiasi numero intero compreso tra (e incluso) "0" e "10".

Valore predefinito: "0".

num_bag_sets

Numero di ripetizioni di kfold bagging da eseguire (i valori devono essere maggiori o uguali a 1). Il numero totale di modelli addestrati durante il bagging è pari a num_bag_folds * num_bag_sets Se time_limit non è specificato, il valore predefinito viene impostato su uno. Questo parametro è disabilitato se num_bag_folds non è specificato. Valori superiori a uno si traducono in prestazioni predittive superiori, soprattutto su problemi più piccoli e con l’impilamento abilitato.

Valori validi: intero, intervallo: [1, 20].

Valore predefinito: 1.

num_stack_levels

Numero di livelli di impilamento da utilizzare in stack ensemble. Aumenta approssimativamente il tempo di addestramento del modello di un fattore di num_stack_levels + 1. Imposta questo parametro su 0 per disattivare lo stack ensembling. Questo parametro è disabilitato per impostazione predefinita, ma consigliamo di utilizzare valori compresi tra 1 e 3 per massimizzare le prestazioni predittive. Per evitare l’overfitting e un ValueError, num_bag_folds deve essere maggiore o uguale a 2.

Valori validi: float, intervallo: [0, 3].

Valore predefinito: 0.

refit_full

Se riqualificare o meno tutti i modelli su tutti i dati (addestramento e convalida) dopo la normale procedura di addestramento. Per maggiori dettagli, consulta Predittori. AutoGluon

Valori validi: stringa, "True" o "False".

Valore predefinito: "False".

set_best_to_refit_full

Se modificare o meno il modello predefinito utilizzato dal predittore per la previsione. Se set_best_to_refit_full è impostato su "True", il modello predefinito passa al modello che ha mostrato il punteggio di convalida più alto a seguito del refitting (attivato da refit_full). Valido solo se refit_full è impostato.

Valori validi: stringa, "True" o "False".

Valore predefinito: "False".

save_space

Se ridurre la memoria e le dimensioni del disco del predittore eliminando i file di modello ausiliari che non sono necessari per la previsione di nuovi dati. Ciò non ha alcun impatto sulla precisione dell'inferenza. Ti consigliamo di impostare save_space su "True" se l'unico obiettivo è utilizzare il modello addestrato per la previsione. Alcune funzionalità avanzate potrebbero non essere più disponibili se save_space è impostato su "True". Per ulteriori dettagli, fai riferimento alla documentazione di predictor.save_space().

Valori validi: stringa, "True" o "False".

Valore predefinito: "False".

verbosity

La verbosità dei messaggi di stampa. I livelli di verbosity variano da 0 a 4, con livelli più alti corrispondenti a dichiarazioni di stampa più dettagliate. Una verbosity di 0 sopprime gli avvisi.

Valori validi: numero intero, uno dei seguenti valori: (0, 1, 2, 3 o 4).

Valore predefinito: 2.